文章主要内容和创新点
主要内容
本文聚焦大型语言模型(LLMs)的对齐问题,挑战了传统依赖外部奖励模型(如RLHF)的范式。作者发现:任何通过标准下一个token预测训练的LLM中,都潜在存在一种“内生奖励”(endogenous reward),这种奖励无需额外训练即可直接从模型的logits中提取,且理论上等价于通过离线逆强化学习(IRL)得到的奖励函数。
通过理论证明,使用这种内生奖励进行强化学习(RL)微调,能使模型的误差界从传统模仿学习的二次依赖((O(H^2)))降至线性依赖((O(H))),有效缓解累积误差问题。实验验证显示,该方法不仅优于现有“LLM-as-a-judge”等启发式方法,甚至超越了基于昂贵人类偏好数据训练的显式奖励模型,为LLM对齐提供了更高效、可扩展的新范式。
创新点
- 发现内生奖励的存在:证明任何基于下一个token预测训练的LLM中,均蕴含一种通用奖励函数(内生奖励),无需额外数据或训练即可提取。
- 理论等价性:从