GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS

文章主要内容和创新点

主要内容

本文聚焦大型语言模型(LLMs)的对齐问题,挑战了传统依赖外部奖励模型(如RLHF)的范式。作者发现:任何通过标准下一个token预测训练的LLM中,都潜在存在一种“内生奖励”(endogenous reward),这种奖励无需额外训练即可直接从模型的logits中提取,且理论上等价于通过离线逆强化学习(IRL)得到的奖励函数。

通过理论证明,使用这种内生奖励进行强化学习(RL)微调,能使模型的误差界从传统模仿学习的二次依赖((O(H^2)))降至线性依赖((O(H))),有效缓解累积误差问题。实验验证显示,该方法不仅优于现有“LLM-as-a-judge”等启发式方法,甚至超越了基于昂贵人类偏好数据训练的显式奖励模型,为LLM对齐提供了更高效、可扩展的新范式。

创新点
  1. 发现内生奖励的存在:证明任何基于下一个token预测训练的LLM中,均蕴含一种通用奖励函数(内生奖励),无需额外数据或训练即可提取。
  2. 理论等价性:从
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值