CodePMP：提升LLM推理能力的可扩展偏好模型预训练-优快云博客

在LLM（大语言模型）的对齐训练中，尽管RLHF（基于人类反馈的强化学习）方法被证明是有效的，但它的效果依赖于RM（奖励模型）的能力。然而，训练RM需要高质量的偏好数据，在复杂推理领域（如数学和逻辑推理），这些数据的获取成本高昂且标注困难。此类偏好数据不仅需要多样化的prompt和响应，还需要准确的人类反馈。因此，提高复杂推理领域偏好数据的利用效率，即有限标注数据的情况下训练出更强大的RM，具有重要意义。

幸运的是，GitHub上有大量公开的源代码数据，经过筛选后可以获得高质量且规模庞大的代码片段。这些高质量代码片段不仅数量可观，而且具有丰富的多样性，可以用来反向生成多样化的code prompt（代码描述）。此外，CodeLLM（代码语言模型）已经得到了广泛关注和发展，最先进的CodeLLM可以根据code prompt生成对应的代码片段。基于此，提出了CodePMP方法——通过利用源代码数据，合成大量、多样的代码偏好数据，实现可扩展的偏好模型预训练，从而提高推理RM的微调样本效率，并最终提升LLM在推理任务上的表现。

方法

CodePMP方法图

CodePMP方法的实现包括以下几个步骤：

查询生成：从GitHub中获取高质量代码片段，并生成相应的code prompt。
利用模型能力差异生成偏好数据：根据code prompt，分别使用强CodeLLM和弱CodeLLM生成对应的代码片段，并将两者组成偏好对。
损失函数设计：损失函数由两部分组成：基于偏好对计算的偏好损失（Pairwise Ranking Loss）和基于chosen响应计算的语言建模损失（LM Loss）。
偏好预训练：在此基础上，利用大量代码偏好数据对模型进行偏好预训练，从而提升模型在下游推理RM微调的样本效率。

伪代码如下图所示：

实验结果

设计了一系列实验来验证CodePMP的效果，同时涵盖了数学推理（GSM8K MATH）和逻辑推理（ReClor LogiQA2.0）任务：

RM准确率评测：

在数学推理和逻辑推理任务中，通过衡量奖励模型在区分测试集中chosen响应和rejected响应时的准确性，对比分别经过CodePMP再微调RM 和直接微调RM 的效果差别。实验结果显示，CodePMP给数学推理和逻辑推理的RM准确率带来了显著提升。

RM准确率对比

Best-of-N(BoN)准确率评测：

通过为每个问题生成多个候选答案，并让RM选择最佳答案。在数学推理上，在候选答案数量增加到256的情况下，经过CodePMP再微调的RM仍然保持高的BoN准确率，而不使用CodePMP而直接微调的RM的BoN准确率则显著下降。在逻辑推理上，经过CodePMP再微调的RM也有着明显的优势。

数学领域Best-of-N（N逐步增大到256）准确率对比

推理领域Best-of-N（N=4）准确率对比

样本效率实验：

在不同微调样本量下的模型效果对比。结果显示，使用CodePMP预训练的模型即使在微调样本量较少的情况下，也能达到或超过不使用CodePMP模型在大样本量下的表现，显著提高了推理RM微调的的样本效率。

不同微调样本量下的模型Best-of-N准确率对比

扩展性测试：

分析了随着合成数据的增多，CodePMP方法带来的增益的变化趋势。实验表明，随着合成偏好对数量的增加，模型在推理偏好任务中的表现持续提升，且未出现效果减弱的迹象，展示了CodePMP方法的高度扩展性。

经过不同规模数据的CodePMP后的模型Best-of-N准确率变化趋势。虚线是不经过CodePMP直接进行RM微调的表现。

通用性测试：

进一步在Gemma2-2B模型上应用了CodePMP方法。实现效果表明，CodePMP在Gemma2-2B上带来的增益依旧明显，充分说明了CodePMP的通用性，可以给不同的模型带来推理RM样本效率的增加和最终的推理表现的提升。

CodePMP 提高了 Gemma-2B 奖励模型在推理任务中的样本效率和 Best-of-N 性能

写在最后

本文介绍了一种可扩展的偏好模型预训练方法（CodePMP），通过合成大规模代码偏好对进行预训练，从而提高面向推理任务的奖励模型的微调样本效率，减少对大量高质量人工标注数据的依赖，显著降低数据获取和标注成本。此外，使用CodePMP初始化的奖励模型在多种推理任务中表现出更强的鲁棒性和泛化能力，能够在不同任务类型和数据规模下保持优异表现。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。