2025NIPS-runner up-Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond

文章主要内容总结

该研究聚焦带可验证奖励的强化学习(RLVR)对大语言模型(LLMs)推理能力的影响,核心结论是:当前RLVR仅提升模型的采样效率,并未赋予其超越基础模型的全新推理能力。研究通过pass@k指标(大k值下评估模型潜在推理边界),在数学、代码生成、视觉推理三大任务中,对不同模型家族、RL算法进行系统性实验,发现RLVR模型在小k值时表现优于基础模型,但大k值下基础模型的推理覆盖度反超;RLVR生成的推理路径均已存在于基础模型的采样分布中,且训练会缩小模型的推理边界。此外,研究还指出蒸馏能真正扩展模型推理能力,而现有RLVR算法性能相近且远未达最优,需通过持续缩放、多轮智能体交互等新范式突破局限。

创新点

  1. 提出用大k值的pass@k指标评估模型推理边界,弥补传统平均性能指标低估模型潜在能力的缺陷。
  2. 首次系统性证实RLVR未引入新推理模式,其推理能力受限于基础模型,颠覆了“RLVR能让LLMs自主进化推理能力”的普遍认知。
  3. 对比RLVR与蒸馏的本质差异,明确蒸馏可通过迁移教师模型推理模式扩展模型能力,为LLM推理能力提升提供新参考。
  4. 定义采样效率差距(Δ_SE)量化RL算法性能,发现现有主流RLVR算法表现接近且效率不足,为后续算法优化指明方向。

Abstract 翻译

带可验证奖励的强化学习(RLVR)近期在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其在数学和编程任务中表现突出。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLV

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值