Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

最新推荐文章于 2025-12-13 07:00:14 发布

UnknownBody

最新推荐文章于 2025-12-13 07:00:14 发布

阅读量439

点赞数 14

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM RL 文章标签：人工智能语言模型

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/148304703

LLM Daily 同时被 2 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM RL

59 篇文章

订阅专栏

摘要

带可验证奖励的强化学习（RLVR）最近在提升大语言模型（LLMs）的推理性能方面取得了显著成功，尤其是在数学和编程任务中。人们普遍认为，与传统强化学习帮助智能体探索和学习新策略类似，RLVR使LLMs能够持续自我改进，从而获得超越相应基础模型能力的新型推理能力。在本研究中，我们通过使用大k值的pass@k作为评估指标，系统地探究了RLVR训练的LLMs在各种模型家族、RL算法以及数学/编码/视觉推理基准上的推理能力边界，对当前RLVR的现状进行了批判性审视。尽管RLVR提高了正确路径的采样效率，但我们惊讶地发现，当前的训练并没有引出根本上新的推理模式。我们观察到，虽然RLVR训练的模型在较小的k值（例如，k=1）时表现优于其基础模型，但当k较大时，基础模型的pass@k分数更高。此外，我们还观察到，随着RLVR训练的进行，LLMs的推理能力边界往往会缩小。进一步的覆盖范围和困惑度分析表明，RLVR模型生成的推理路径已经包含在基础模型的采样分布中，这表明它们的推理能力源于基础模型并受其限制。从这个角度来看，将基础模型视为上限，我们的定量分析表明，六种流行的RLVR算法表现相似，且在充分利用基础模型的潜力方面远未达到最佳状态。相比之下，我们发现蒸馏可以从教师模型引入新的推理模式，并真正扩展模型的推理能力。综上所述，我们的研究结果表明，当前的RLVR方法尚未完全实现强化学习在LLMs中激发真正新颖推理能力的潜力。这凸显了对改进的RL范式的需求，例如持续扩展和多轮智能体-环境交互，以释放这种潜力。

项目页面：https://limit-of-RLVR.github.io