多阶段 RL(先数学,后代码)训练策略分析与实战启发

        尽管在大规模强化学习(RL)用于推理任务方面取得了进展,但构建高性能推理模型的训练方法仍然不明确。现有的前沿模型,如 DeepSeek-R1,通常省略了关键的实现细节,如数据策划策略和 RL 训练方法。此外,对于小型和中型模型,蒸馏(distillation)通常比 RL 更有效。

        NVIDIA 研究团队推出了 AceReason-Nemotron的研究项目,该项目通过大规模强化学习(Reinforcement Learning, RL)显著提升了小型和中型语言模型在数学和代码推理任务上的表现。

1.研究方法

        文章采用了 GRPO 算法,这是一种简单且不需要单独价值函数模型的 RL 算法。对于每个问题-答案对,模型生成一组输出,并根据规则奖励函数为每个输出分配奖励分数。文章中使用了严格的 on-policy 训练方法,即在模型生成一组输出后只进行一次梯度更新,以确保 RL 训练的稳定性并防止熵崩溃。

1.1数学推理的 RL 训练

数据策划

        研究者开发了一个数据收集和验证流程,用于生成高质量的数学问题数据集。该数据集结合了 DeepScaler 和 NuminaMath,覆盖了代数、组合数学、数论和几何等领域。通过严格的过滤规则,排除了不适合的数据,如多选题、证明题、非英语内容等。最终,经过严格验证的数据集包含约 49,000 个适合 RL 训练的高质量数学问题。

训练过程

        文章提出了一个两阶段的 RL 训练流程:首先进行数学问题的 RL 训练,然后进行代码问题的 RL 训练。数学 RL 训练显著提升了模型在数学基准测试上的表现,并且意外地也提升了代码推理任务的表现。此外,扩展的代码 RL 迭代进一步提升了代码基准测试的性能,而对数学结果的影响最小。

1.2代码推理的 RL 训练

数据策划

        代码 RL 训练的数据集从现代编程竞赛平台收集,经过严格筛选,确保数据质量。研究者排除了多解问题、需要特殊评判的问题、测试用例不正确或缺乏金标准解决方案的问题,以及测试用例较弱的问题。最终,经过严格筛选后,数据集中剩下 8,520 个问题。

训练过程

        代码 RL 训练采用两阶段流程:第一阶段从数学 RL 训练后的模型开始,使用难度较低的问题进行训练;第二阶段使用全部训练问题,逐步增加采样温度和输出长度,以鼓励策略收敛和探索。

实验设置

        实验从 DeepSeek-R1-Distill-Qwen-7B 和 14B 模型开始,这些模型基于 Qwen2.5 模型家族,并从 DeepSeek-R1 蒸馏而来。实验遵循 DeepSeek-R1 的评估协议,使用温度为 0.6、top-p 为 0.95 和最大输出长度为 32,768 个标记。

主要结果

        AceReason-Nemotron-7B 和 14B 模型在数学和代码任务上的表现显著优于初始的 SFT 模型。具体来说,AceReason-Nemotron-7B 在 AIME 2024 和 2025 上的准确率分别提高了 14.5% 和 14.6%,在 LiveCodeBench v5 和 v6 上的准确率分别提高了 14.2% 和 8%。AceReason-Nemotron-14B 在 AIME24/25 上的准确率分别提高了 8.9% 和 7.2%,在 LiveCodeBench v5/v6 上的准确率分别提高了 8.0% 和 7.0%。

  • 响应长度与性能同步增长:文章展示了在 RL 训练过程中,模型的响应长度与性能同步增长。在 8K 到 16K 的长度扩展训练策略中,模型在 16K 阶段迅速利用额外的推理标记容量,平均响应长度从 4K 增加到约 6.5K 标记,同时 AIME24 准确率从 55% 提高到 62%。

  • 难题推动最大收益:在 24K 响应长度的 RL 阶段,基于 7B 模型性能估计的难题集(Hard prompt set)在 AIME24 基准测试中比全集数据和易、中等难度的提示集多出 2.6% 的改进。

  • LiveCodeBench v5 的主题准确率分析:数学 RL 和代码 RL 都增强了特定主题的编码问题的性能。数学 RL 在算法和数学相关领域提供了更大的收益,而代码 RL 在依赖编码实现和数据结构技能的主题上提供了进一步的改进。

  • 代码 RL 训练中的假正和假负奖励:文章通过实验表明,假正和假负奖励都会对 RL 训练产生负面影响,导致模型在次优策略上提前收敛,甚至完全训练崩溃。

  • RL 是否提高了 pass@k 或 pass@1 超过 SFT 模型?文章发现 RL 一致地提高了 LiveCodeBench v5 和 v6 的 pass@k 分数,从 k=8 到 k=64,14B 模型在 AIME24/25 上也显示出更好的 pass@k。

  • RL 在哪里超越了 SFT 模型?文章比较了初始 7B SFT 模型与 AceReason-Nemotron-7B 在 LiveCodeBench v5/v6 和 AIME 2024/2025 上的问题级准确率。结果表明,RL 不仅提高了高解决率问题的准确率,还扩展了边界,解决了 SFT 模型最初无法解决的难题。

2.结论

        文章证明了大规模强化学习(RL)可以显著提升小型和中型 SFT 模型的推理能力。通过首先在数学问题上进行 RL 训练,然后在代码问题上进行 RL 训练,模型在数学和代码推理任务上的表现都得到了显著提升。此外,文章还开发了一个鲁棒的数据策划流程,收集了具有高质量、可验证答案和测试用例的挑战性提示,以支持跨领域的基于验证的 RL。通过 RL 训练,模型不仅激发了在预训练和监督微调期间获得的基础推理能力,还推动了模型推理能力的极限,使其能够解决以前无法解决的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值