1. 导读
过去,大语言模型(Large Language Models, LLMs)的对齐依赖一个关键组件:奖励模型(Reward Model)。奖励模型通常基于昂贵的人类偏好数据(human preference data)训练,用于指导强化学习(Reinforcement Learning, RL)以优化最终策略。
尽管这一范式有效,但其高昂的成本和低扩展性限制了实用性。
本文提出了一个颠覆性的发现:任何通过下一个 token 预测(next-token prediction)训练的语言模型,其内部已隐含一个通用奖励函数(Generalist Reward Function)。作者将其称为内生奖励(Endogenous Reward),并证明该函数在理论上等价于由**离线逆强化学习(Offline Inverse Reinforcement Learning, Offline IRL)**推导出的奖励函数。
更进一步,论文首次从理论上证明:利用内生奖励进行强化学习能够显著减少模仿学习中的误差累积(compounding error),使策略误差从 O(H²) 降为 O(H),提升了泛化性能与收敛稳定性。
令人惊讶的是,实验表明该方法不仅优于 LLM-as-a-Judge 框架,甚至**超过了显式训练的奖励模型(explicitly trained reward models)**在多个基准任务上的表现。
这一发现预示着未来的 LLM 对齐流程可以省略独立的奖励建模阶段,转向一种更加高效、可控、可扩展的新范式。
论文基本信息
-
标题:Generalist Reward Models: Found Inside Large Language Models
-
作者:Yi-Chen Li*, Tian Xu*, Yang Yu†, Xuqin Zhang, Xiong-Hui Chen, Zhongxiang Ling, Ningjing Chao, Lei Yuan, Zhi-Hua Zhou
*Equal contribution;†Corresponding author -
机构:南京大学人工智能学院(School of Artificial Intelligence, Nanjing University)
国家重点实验室(National Key Laboratory for Novel Software Technology) -
时间:2025年6月(arXiv 预印本)
-
arXiv 链接:https://arxiv.org/abs/2506.23235
-
关键词:
-
- Endogenous Reward(内生奖励)
- Inverse Reinforcement Learning, IRL(逆强化学习)
- Reinforcement Learning from Human Feedback, RLHF(人类反馈强化学习)
- Reinforcement Learning from AI Feedback, RLAIF(AI反馈强化学习)
- LLM Alignment(大模型对齐)
- Logits as Q-function(将 logits 看作 Q 函数)
- Policy Improvement Bound(策略改进误差界)
- Generalist Reward Models(通用型奖励模型)
2.问题背景
随着大语言模型(LLM)的能力不断增强,一个核心挑战也愈发突出:如何让模型不仅能说,还能“说得对”“说得好”。为此,当前主流的对齐方法是 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF),其基本流程包括三步:首先对模型进行监督微调(SFT),然后训练一个奖励模型(Reward Model, RM)来判断回答的好坏,最后用该奖励信号指导强化学习,优化模型策略。
在这个过程中,奖励模型扮演着至关重要的角色。它是模型“判断力”的来源,也是 RLHF 成败的关键。然而,构建一个高质量的奖励模型非常昂贵。它需要大量人工标注的偏好数据,即让人类对多个候选回答进行成对比较,告诉模型哪一个更好。这不仅成本高昂、效率低下,还难以适配多样化的用户需求。
为了解决这一问题,近期出现了 RLAIF(Reinforcement Learning from AI Feedback) 等新方法。RLAIF 的思路是用强大的大模型(如 GPT-4)代替人工标注,担任“AI 裁判”,为候选回答打分。这种方法在实践中大大降低了成本,但也引发了新的疑问:这些 AI 裁判的判断是否可靠?它们是否只是复制了自身训练数据中的偏见?更重要的是,这一过程缺乏坚实的理论支撑,仍属启发式探索。
为此,本文提出了一个全新的路径:奖励信号其实并不需要从外部获取,而是早已“潜藏”在语言模型本身之中。作者发现,任何通过下一个 token 预测(next-token prediction)训练的 LLM,其输出 logits 实际上就蕴含着一个具备理论意义的奖励函数。通过一定的公式变换,可以从 logits 中提取出一种称为“内生奖励(Endogenous Reward)”的信号,用于替代传统奖励模型。这一发现不仅节省了构建 RM 的成本,更首次建立了一个有理论支撑的奖励提取机制,为 LLM 对齐带来了全新思路。
3. 内生奖励的提出与理论支撑
本文的核心创新在于提出“内生奖励(Endogenous Reward)”这一概念,并从理论上证明,它可以作为语言模型内部自带的高质量奖励信号,替代传统的人工训练奖励模型。
3.1 内生奖励
作者从逆强化学习(Inverse Reinforcement Learning, IRL)的角度出发,发现语言模型的训练目标——即“预测下一个 token 的概率”(next-token prediction)——实际上就隐式等价于 IRL 中的 reward learning 过程。
更具体地说,语言模型的输出 logits 可以看作一个 Q 函数(行为的价值函数),再通过一个数学变换(soft Bellman 逆算子)即可还原出一个奖励函数。这意味着,只要模型是用标准的 next-token 目标训练的,我们就可以直接从它的输出中提取出奖励,完全不需要额外标注或训练。
这种奖励信号被称为“内生奖励”,具有如下特点:
- 来源于模型本身,无需额外监督;
- 具有可解释的结构,与行为概率、状态价值有关;
- 可以被用于对比答案、指导强化学习,具备实际应用能力。
3.2 理论支撑
除了提出方法,作者还提供了完整的理论分析,说明内生奖励不仅可行,而且在一定条件下具备更好的性能保证。
- 奖励误差分析
论文证明,如果语言模型的策略(即生成概率分布)与专家行为接近,那么内生奖励导出的偏好判断也会非常准确,误差有严格上界。 - 策略性能分析
相较于模仿学习(imitation learning),内生奖励结合强化学习能更快收敛。具体来说,模仿学习误差随任务长度呈二次增长,而强化学习误差只呈线性增长,理论上更稳更强。 - 可收敛性分析
由于内生奖励是由模型当前策略计算得出,强化学习优化一轮后即达到最优,再继续迭代也不会有进一步提升,具有自然的收敛性。
这部分工作说明:我们不必再构建外部奖励模型,语言模型自己就能“评分”自己的输出。这一结果为未来低成本、高鲁棒性的对齐方法提供了坚实基础。
4. 实验验证与结果分析
作者通过一系列实证研究,验证了内生奖励的有效性与应用潜力。实验设计围绕三个核心问题展开:
- 内生奖励是否具有与训练型奖励模型相当的判断能力?
- 它能否适应不同指令,实现偏好控制?
- 强化学习后模型的性能是否能实质提升?
4.1 奖励判断准确性
在 RM-Bench 基准数据集上,作者比较了内生奖励(EndoRM)与多个训练型和非训练型奖励模型的表现。实验采用统一的底层语言模型(Qwen2.5-7B-Instruct)以确保公平性。
结果表明,EndoRM 的整体准确率超过了所有对比模型,在聊天、代码、数学、安全性等任务上表现稳定,特别是在无需任何训练的前提下,优于多个训练代价高昂的奖励模型。
在 Multifaceted-Bench 上,EndoRM 同样展现出良好的跨任务适应能力,准确识别了多种用户偏好设置下的优劣回答。
4.2 指令控制能力
在 Domain-Specific Preference(DSP)数据集中,作者测试了内生奖励的指令适应性。方法是:为模型提供不同领域的系统提示(如“你是学术评审员”“你是商业内容审核员”),并评估其在匹配领域的表现。
结果显示,不同指令下的 EndoRM 能够明显更好地判断该领域数据,准确率在交叉测试中呈现出清晰的对角线优势。这说明,内生奖励具备一定程度的“可提示性”,即可通过 prompt 控制其评估标准。
4.3 强化学习效果评估
作者还在 MATH-lighteval 数据集上对 Qwen2.5-Math-7B 模型进行了基于内生奖励的强化学习微调。在五个数学推理子任务(AIME、AMC、Minerva、OlympiadBench、MATH-500)上进行测试。
结果显示,微调后的模型在所有子任务上均有性能提升,平均提高 5.8 个百分点。个别任务如 Minerva 提升幅度超过 10%。训练过程中未对奖励模型进行任何优化,仅使用 logits 推导出的内生奖励信号。
5. 总结与讨论
本文从理论与实验两个方面,提出并验证了一种无需外部监督信号的奖励建模方式。通过将语言模型的 logits 解释为 Q 函数,并结合逆强化学习的原理,作者构建出一种可直接从模型内部推导的“内生奖励”(Endogenous Reward)。
该方法具备以下特性:
- 无需人工标注:不依赖偏好数据或外部评估器;
- 免训练过程:可直接从现有语言模型中提取,无需额外模型优化;
- 具备理论基础:与最大熵 IRL 目标一致,误差界限明确;
- 适用于强化学习:在多个任务中提升模型性能,误差收敛性优于 imitation learning;
- 支持指令调控:内生奖励在不同系统提示下可调整偏好方向,具备一定个性化能力。
尽管方法简单高效,作者也指出了一些待解决的问题:
- 奖励函数完全来源于模型自身,可能会固化已有偏见;
- 内生奖励只适用于一轮强化学习优化,无法迭代提升;
- 理论分析主要基于 token-level 的语言生成,对多模态或复杂推理任务尚缺经验支持。
相比传统奖励建模方法,该机制展现出较好的解释性与工程灵活度。未来可结合稀疏人类反馈、策略聚合等方式进一步增强其稳定性和适应性,拓展其在跨任务和多模态场景下的应用边界。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。