主要内容
- 研究背景:强化学习与可验证奖励(RLVR)在提升大语言模型(LLMs)推理能力方面备受关注,但它是否真能让模型获得超越基础模型的推理能力有待研究。
- 研究方法:通过使用pass@k指标,在多种模型、RL算法和数学/编程基准测试上评估基础模型和RL训练模型的推理能力边界。
- 实验结果
- 大k值下基础模型表现更优:在数学、代码生成和视觉推理任务中,当k值较小时,RL训练模型表现优于基础模型;但随着k值增大,基础模型的pass@k得分超过RL训练模型,说明基础模型可解决问题的覆盖范围更广。
- RLVR提升采样效率但缩小推理边界:RLVR通过使模型偏向高奖励推理路径来提高采样正确推理路径的可能性,但这也降低了模型的探索能力,缩小了推理边界。
- 不同RL算法效果差异不大且远非最优:不同RL算法在提升采样效率上仅有细微差异,且都远未达到最优。
- 蒸馏可扩展推理边界:与RLVR不同,蒸馏能为模型引入新知识,扩展模型的推理边界。
- 原因分析:传统RL与LLMs的RLVR存在巨大动作空间和预训练先验的差异,预训练先验在帮助模型生成合理响应的同时,也限制了模型探索新推理模式的能力。
- 研究结论:RLVR无法让LLMs获得超越

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



