如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。
然而,主流 RL 算法(如 REINFORCE 与 GRPO)普遍采用基于 token 的优化目标。这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性与训练稳定性的担忧,因此已经有研究尝试直接使用序列级优化目标。
此外,token 级优化目标在混合专家(MoE)模型的 RL 训练中带来了新的挑战,比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性。由此引出的关键问题是:在什么条件下,用 token 级目标优化序列级奖励是合理的?有效程度又是怎样的?
针对这些问题,阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法。核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token 级目标作为其一阶近似。这一近似在以下两种偏差都足够小的条件下才成立:
- 训练与推理之间的数值差异
- 用于采样响应的 rollout 策略与需要优化的目标策略之间的偏差
这一观点从原理上解释了多种 RL 稳定训练技巧的有效性,比如 1)重要性采样权重天然出现在基于该一阶近似的 token 级替代目标中;2)剪切(Clipping)机制通过限制策略变化幅度来抑制策略陈旧;3)在 MoE 中,路由重放(Routing Replay)方法通过在策略优化过程中固定专家路由,能够同时减少训练–推理差异与策略陈旧,从而提高训练稳定性。

- 论文标题:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
- 论文地址:https://www.arxiv.org/pdf/2512.01374
为验证本文理论洞察并探索实现稳定 RL 训练的有效实践,团队使用一个 30B 参数的 MoE 模型进行大量实验,总计耗费数十万 GPU 小时。
主要结论包括如下:
- 在 on-policy 训练中,带重要性采样校正的基本策略梯度方法能够实现最高的训练稳定性;
- 在引入 off-policy 更新以加速收敛时(即将大规模生成的响应批次拆分成多个 mini-batch 进行多次梯度更新),要缓解因策略陈旧而导致的不稳定性,就必须同时使用 Clipping 与 Routing Replay;
- 在训练稳定后,不同冷启动方式的模型最终性能趋于一致。这说明未来研究应更关注 RL 方法本身,而不必过度强调冷启动细节。随着 RL 训练的持续,冷启动带来的差异最终会消失。
大语言模型(LLM)强化学习的公式化方法
团队将一个由参数 θ 表示的自回归大语言模型(LLM)定义为策略 π_θ。他们使用 𝒳 表示提示集,用 𝒟 表示数据集。在策略 π_θ 下,给定提示 x,模型生成响应 y 的似然可写作
由于团队采用的是序列级奖励设置,即对整个响应 y 赋予一个标量奖励 R (x, y),因此专注于序列级优化,而不考虑基于价值函数的设置(比如 PPO),其中每个 token 会从价值模型获得一个标量评分从而引导策略优化。
至于为什么不采用价值函数方法,是因为团队发现:构建通用、可扩展且可靠的价值模型本身就极为困难(甚至几乎不可能)。
直接优化期望序列级奖励非常困难
团队的公式化方法从真正希望最大化的序列级奖励期望出发:

其中 π_θ 是目标策略。由于模型生成响应通常并非在训练引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中进行,团队采用重要性采样(IS)来完成等价的变换:

Token 级目标作为序列级目标的一阶近似
关键步骤是引入以下替代的 token 级优化目标:

其梯度为:

这一梯度形式实际上就是带 token 级重要性采样权重的基本策略梯度算法(REINFORCE)。核心洞察是:公式 (3) 中的 token 级目标可以视为公式 (1) 中序列级目标的一阶近似。也就是说,团队用一个更易优化的 token 级替代目标来逼近真正希望最大化的序列级期望奖励。
一阶近似成立的条件
为了使上述一阶近似有效,需要满足一个关键条件:目标策略 π_θ 与 rollout 策略 μ_{θ_old} 必须足够接近。这一点乍看不太直观,因此为了便于理解,对于给定的提示 x 和任意 token y_t,团队将其重要性采样权重(IS)重写为:

MoE 模型的挑战及 Routing Replay 方法
对于 MoE 模型而言,使一阶近似成立的条件变得更为复杂。具体来说,在生成每个 token 的前向计算中,MoE 模型会通过专家路由机制动态选择并激活少量专家参数。将专家路由纳入公式 (5) 后,MoE 模型的 token 级 IS 权重可写为:

由此可以看出,MoE 场景下的强化学习挑战在于:专家路由与训练 — 推理差异、策略陈旧的紧密耦合,从而更容易导致公式 (3) 中基于一阶近似的 token 级替代优化目标失效。
Routing Replay 使一阶近似重新成立,但可能引入偏差
由于专家路由会削弱 MoE 模型中一阶近似的有效性,可通过 Routing Replay 方法消除这一影响。Routing Replay 的核心思想是在策略优化过程中固定路由到的专家,从而稳定 MoE 模型的 RL 训练,使其在优化行为上更接近稠密模型。
Routing Replay 主要有两种具体实现方式:Vanilla Routing Replay(R2) 与 Rollout Routing Replay(R3)。
R2 的目标是减轻专家路由对策略陈旧的影响,其方法是在梯度更新阶段,复现训练引擎中 rollout 策略所选择的路由专家:

R3 的目标是减轻专家路由对训练 — 推理差异的影响,其实现方式是在训练引擎中统一复现推理引擎中 rollout 策略所选定的路由专家。这一做法不仅降低了训练 — 推理差异,也同时缓解了专家路由对策略陈旧的影响:

实验结果
在实验中,团队对公式 (3) 的 REINFORCE 优化目标进行了两项最小化修改,从而构建了一个极简基线算法,称为 MiniRL。
团队在数学推理任务上进行了实验,内容为:模型生成的回答会与标准答案比对,并获得一个二值奖励。团队构建了包含 4096 道、均具有经过验证答案的数学题目作为 RL 训练的提示集。评测时,团队在 HMMT25、AIME25 和 AIME24 基准上(这三个基准共包含 90 道竞赛级数学题)分别采样 32 个响应,并报告其平均准确率。
实验采用了从 Qwen3-30B-A3B-Base 微调得到的冷启动模型。训练采用 BF16 精度,而推理由于使用 FP8 精度而具有更低数值精度,从而构成一种严格的应力测试场景,即训练与推理之间存在较大的数值差异。除了训练奖励,团队还监测了两项动态指标:目标策略的 token 级熵以及推理引擎与训练引擎中 rollout 策略之间的 KL 散度。
On-policy 训练结果
从下图 1 中,团队得到了以下观察结果与结论:
- MiniRL(即带重要性采样校正的基本策略梯度算法)取得了最佳性能和最高训练稳定性。
- 即使训练过程仍然稳定,引入长度归一化仍会导致性能下降。这一现象符合预期,因为长度归一化破坏了对真实序列级奖励的一阶近似,从而使 token 级优化目标产生偏差。
- 移除训练 — 推理阶段的 IS 校正会导致训练迅速崩溃,并伴随熵的急剧下降。这进一步验证了:IS 权重是该一阶近似中不可或缺的组成部分;一旦移除,token 级优化目标将立即失效。

Off-policy 训练结果
从下图 2 至图 4 中,团队得到了以下观察结果与结论:一旦引入 off-policy 更新,Routing Replay 与 clipping 都成为实现稳定训练的关键要素。
具体来讲,如图 2 和图 3 所示,只要缺失 Routing Replay 或 clipping 中的任一项,训练都会提前崩溃,进而导致峰值性能下降。这说明:Routing Replay 能够缓解专家路由带来的不稳定因素;Clipping 则能有效抑制过度激进的策略更新。两者共同作用,从而抑制策略陈旧,保障训练稳定性。



不同冷启动初始化的结果
在下图 5 中,团队展示了三种不同的冷启动初始化方式最终都取得了相近的性能。这一现象表明,研究重点应更多放在强化学习(RL)方法本身,而不必过度关注冷启动初始化的具体细节。
此外,通过对比图 1 至图 4,团队发现:无论是 on-policy 还是 off-policy,只要训练过程得以稳定,其峰值性能都高度一致。这些结果进一步说明:稳定的训练过程在成功扩展 RL 中起着决定性作用。

那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
1030

被折叠的 条评论
为什么被折叠?



