Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

摘要

带可验证奖励的强化学习(RLVR)最近在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其是在数学和编程任务中。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR使LLMs能够持续自我改进,从而获得超越相应基础模型能力的新型推理能力。在本研究中,我们通过使用大k值的pass@k作为评估指标,系统地探究了RLVR训练的LLMs在各种模型家族、RL算法以及数学/编码/视觉推理基准上的推理能力边界,对当前RLVR的现状进行了批判性审视。尽管RLVR提高了正确路径的采样效率,但我们惊讶地发现,当前的训练并没有引出根本上新的推理模式。我们观察到,虽然RLVR训练的模型在较小的k值(例如,k=1)时表现优于其基础模型,但当k较大时,基础模型的pass@k分数更高。此外,我们还观察到,随着RLVR训练的进行,LLMs的推理能力边界往往会缩小。进一步的覆盖范围和困惑度分析表明,RLVR模型生成的推理路径已经包含在基础模型的采样分布中,这表明它们的推理能力源于基础模型并受其限制。从这个角度来看,将基础模型视为上限,我们的定量分析表明,六种流行的RLVR算法表现相似,且在充分利用基础模型的潜力方面远未达到最佳状态。相比之下,我们发现蒸馏可以从教师模型引入新的推理模式,并真正扩展模型的推理能力。综上所述,我们的研究结果表明,当前的RLVR方法尚未完全实现强化学习在LLMs中激发真正新颖推理能力的潜力。这凸显了对改进的RL范式的需求,例如持续扩展和多轮智能体-环境交互,以释放这种潜力。

项目页面:https://limit-of-RLVR.github.io

### 强化学习激励大型语言模型推理能力的方法 为了提升大型语言模型在特定任务上的推理能力,采用了一种基于强化学习(RL)的训练方法[^2]。这种方法不仅增强了模型处理复杂问题的能力,还特别关注于提高其在编程、数学、科学以及逻辑推理等领域的表现。 #### 应用大规模强化学习训练过程 具体而言,在对预训练的基础模型进行初步调整之后,采用了类似于先前版本中的大规模强化学习流程来进行进一步优化。此阶段的核心目标在于加强模型对于需要清晰定义的问题及其对应解答路径的理解力和解决效率。值得注意的是,在这个过程中发现了一个有趣现象——当提示涉及到多语种环境下的思考链条时,容易出现不同语言混合使用的状况。为此,研究者们设计并实施了一套专门针对这一挑战的语言一致性奖励机制,旨在鼓励更连贯一致的回答形式,尽管这可能会带来些许性能上的牺牲[^1]。 #### 设计合理的奖励函数 为了平衡准确度与表达质量之间的关系,最终决定将推理任务的成功率同上述提到的语言一致性得分相结合作为整体评价标准的一部分。这意味着每当完成一次迭代更新后,都会依据这两个维度的表现给予相应的反馈信号给到正在接受训练的目标网络结构之中,直至整个系统能够在预期范围内稳定产出高质量的结果为止。 ```python def calculate_final_reward(task_accuracy, language_consistency): """ Calculate the final reward by combining task accuracy and language consistency. Args: task_accuracy (float): Accuracy score of reasoning tasks. language_consistency (float): Proportion of target language vocabulary used in Chain-of-Thought. Returns: float: Final combined reward value. """ return task_accuracy + language_consistency ``` 通过这种方式,可以有效地引导大型语言模型朝着更加擅长处理各类抽象概念的方向发展,同时也确保了输出内容能够保持较高的可理解性和易读性水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值