文章主要内容总结
该研究聚焦带可验证奖励的强化学习(RLVR)对大语言模型(LLMs)推理能力的影响,核心结论是:当前RLVR仅提升模型的采样效率,并未赋予其超越基础模型的全新推理能力。研究通过pass@k指标(大k值下评估模型潜在推理边界),在数学、代码生成、视觉推理三大任务中,对不同模型家族、RL算法进行系统性实验,发现RLVR模型在小k值时表现优于基础模型,但大k值下基础模型的推理覆盖度反超;RLVR生成的推理路径均已存在于基础模型的采样分布中,且训练会缩小模型的推理边界。此外,研究还指出蒸馏能真正扩展模型推理能力,而现有RLVR算法性能相近且远未达最优,需通过持续缩放、多轮智能体交互等新范式突破局限。
创新点
- 提出用大k值的pass@k指标评估模型推理边界,弥补传统平均性能指标低估模型潜在能力的缺陷。
- 首次系统性证实RLVR未引入新推理模式,其推理能力受限于基础模型,颠覆了“RLVR能让LLMs自主进化推理能力”的普遍认知。
- 对比RLVR与蒸馏的本质差异,明确蒸馏可通过迁移教师模型推理模式扩展模型能力,为LLM推理能力提升提供新参考。
- 定义采样效率差距(Δ_SE)量化RL算法性能,发现现有主流RLVR算法表现接近且效率不足,为后续算法优化指明方向。
Abstract 翻译
带可验证奖励的强化学习(RLVR)近期在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其在数学和编程任务中表现突出。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLV

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



