多阶段 RL（先数学，后代码）训练策略分析与实战启发

本文链接：https://blog.youkuaiyun.com/u012374012/article/details/148530200

尽管在大规模强化学习（RL）用于推理任务方面取得了进展，但构建高性能推理模型的训练方法仍然不明确。现有的前沿模型，如 DeepSeek-R1，通常省略了关键的实现细节，如数据策划策略和 RL 训练方法。此外，对于小型和中型模型，蒸馏（distillation）通常比 RL 更有效。

NVIDIA 研究团队推出了 AceReason-Nemotron的研究项目，该项目通过大规模强化学习（Reinforcement Learning, RL）显著提升了小型和中型语言模型在数学和代码推理任务上的表现。

1.研究方法

文章采用了 GRPO 算法，这是一种简单且不需要单独价值函数模型的 RL 算法。对于每个问题-答案对，模型生成一组输出，并根据规则奖励函数为每个输出分配奖励分数。文章中使用了严格的 on-policy 训练方法，即在模型生成一组输出后只进行一次梯度更新，以确保 RL 训练的稳定性并防止熵崩溃。

1.1数学推理的 RL 训练

数据策划

研究者开发了一个数据收集和验证流程，用于生成高质量的数学问题数据集。该数据集结合了 DeepScaler 和 NuminaMath，覆盖了代数、组合数学、数论和几何等领域。通过严格的过滤规则，排除了不适合的数据，如多选题、证明题、非英语内容等。最终，经过严格验证的数据集包含约 49,000 个适合 RL 训练的高质量数学问题。

训练过程

文章提出了一个两阶段的 RL 训练流程：首先进行数学问题的 RL 训练，然后进行代码问题的 RL 训练。数学 RL 训练显著提升了模型在数学基准测试上的表现，并且意外地也提升了代码推理任务的表现。此外，扩展的代码 RL 迭代进一步提升了代码基准测试的性能，而对数学结果的影响最小。

1.2代码推理的 RL 训练

数据策划

代码 RL 训练的数据集从现代编程竞赛平台收集，经过严格筛选，确保数据质量。研究者排除了多解问题、需要特殊评判的问题、测试用例不正确或缺乏金标准解决方案的问题，以及测试用例较弱的问题。最终，经过严格筛选后，数据集中剩下 8,520 个问题。

训练过程

代码 RL 训练采用两阶段流程：第一阶段从数学 RL 训练后的模型开始，使用难度较低的问题进行训练；第二阶段使用全部训练问题，逐步增加采样温度和输出长度，以鼓励策略收敛和探索。

实验设置

实验从 DeepSeek-R1-Distill-Qwen-7B 和 14B 模型开始，这些模型基于 Qwen2.5 模型家族，并从 DeepSeek-R1 蒸馏而来。实验遵循 DeepSeek-R1 的评估协议，使用温度为 0.6、top-p 为 0.95 和最大输出长度为 32,768 个标记。

主要结果

AceReason-Nemotron-7B 和 14B 模型在数学和代码任务上的表现显著优于初始的 SFT 模型。具体来说，AceReason-Nemotron-7B 在 AIME 2024 和 2025 上的准确率分别提高了 14.5% 和 14.6%，在 LiveCodeBench v5 和 v6 上的准确率分别提高了 14.2% 和 8%。AceReason-Nemotron-14B 在 AIME24/25 上的准确率分别提高了 8.9% 和 7.2%，在 LiveCodeBench v5/v6 上的准确率分别提高了 8.0% 和 7.0%。

响应长度与性能同步增长：文章展示了在 RL 训练过程中，模型的响应长度与性能同步增长。在 8K 到 16K 的长度扩展训练策略中，模型在 16K 阶段迅速利用额外的推理标记容量，平均响应长度从 4K 增加到约 6.5K 标记，同时 AIME24 准确率从 55% 提高到 62%。
难题推动最大收益：在 24K 响应长度的 RL 阶段，基于 7B 模型性能估计的难题集（Hard prompt set）在 AIME24 基准测试中比全集数据和易、中等难度的提示集多出 2.6% 的改进。
LiveCodeBench v5 的主题准确率分析：数学 RL 和代码 RL 都增强了特定主题的编码问题的性能。数学 RL 在算法和数学相关领域提供了更大的收益，而代码 RL 在依赖编码实现和数据结构技能的主题上提供了进一步的改进。
代码 RL 训练中的假正和假负奖励：文章通过实验表明，假正和假负奖励都会对 RL 训练产生负面影响，导致模型在次优策略上提前收敛，甚至完全训练崩溃。
RL 是否提高了 pass@k 或 pass@1 超过 SFT 模型？文章发现 RL 一致地提高了 LiveCodeBench v5 和 v6 的 pass@k 分数，从 k=8 到 k=64，14B 模型在 AIME24/25 上也显示出更好的 pass@k。
RL 在哪里超越了 SFT 模型？文章比较了初始 7B SFT 模型与 AceReason-Nemotron-7B 在 LiveCodeBench v5/v6 和 AIME 2024/2025 上的问题级准确率。结果表明，RL 不仅提高了高解决率问题的准确率，还扩展了边界，解决了 SFT 模型最初无法解决的难题。

2.结论

文章证明了大规模强化学习（RL）可以显著提升小型和中型 SFT 模型的推理能力。通过首先在数学问题上进行 RL 训练，然后在代码问题上进行 RL 训练，模型在数学和代码推理任务上的表现都得到了显著提升。此外，文章还开发了一个鲁棒的数据策划流程，收集了具有高质量、可验证答案和测试用例的挑战性提示，以支持跨领域的基于验证的 RL。通过 RL 训练，模型不仅激发了在预训练和监督微调期间获得的基础推理能力，还推动了模型推理能力的极限，使其能够解决以前无法解决的问题。