统一策略梯度估计器 (UPGE)将SFT和各种RL变体）的梯度计算统一表达，混合后训练 (Hybrid Post-Training, HPT)动态地、自适应地在SFT和RL两种学习信号之间进行切换

最新推荐文章于 2025-11-23 19:45:40 发布

原创最新推荐文章于 2025-11-23 19:45:40 发布 · 899 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#学习

大模型相关专栏收录该内容

39 篇文章

订阅专栏

共同目标

所有后训练算法的根本目标可以被抽象为一个共同的优化问题：最大化模型策略 π_θ在给定问题 q 下生成轨迹 τ 的期望奖励
，同时通过一个KL散度项
来约束模型策略 π_θ 不要偏离一个行为策略（demonstration policy）π_β 太远。这个行为策略 π_β 可以理解为提供高质量示范数据的专家策略。

共同的目标函数可以写作：

其中，r(τ|q) 是轨迹 τ 的奖励分数，μ 是一个权衡奖励最大化和数据遵循的超参数。
通过对这个共同目标函数求导，并进行一系列数学变换（如应用得分函数恒等式和重要性采样），论文作者们最终得到了一个统一的策略梯度形式。

统一策略梯度估计器 (UPGE)

统一的策略梯度估计器（UPGE）可以表示为以下简洁而深刻的形式

它由四个可互换的核心组件构成，不同的算法可以看作是为这四个组件选择了不同的具体实现。

似然梯度 (Likelihood Gradient)
这是策略梯度方法的基础部分，它将从动作（即生成的token）中获得的梯度信息反向传播到模型的参数。这部分在所有算法中保持一致，是优化的最终执行者。

优势估计 (Advantage Estimate)
在传统RL中，优势函数衡量的是在某个状态下，采取某个动作相对于平均水平的好坏。在LLM的后训练中，这个概念通常被简化为对整个生成序列（轨迹）质量的评估。它决定了梯度更新的方向和大小。

对于SFT，可以认为所有示范数据都是“好的”，因此其优势值可以被设为一个恒定的正数，例如1。这意味着模型的目标就是最大化生成这些示范数据的似然。
对于RL算法（如PPO, GRPO），优势值则是根据奖励模型或环境反馈动态计算的。例如，GRPO通过组内归一化（减去均值，除以标准差）来计算优势，这有助于稳定训练并进行相对信用的分配。

参考策略分母 (Reference Policy Denominator)
这是一个token级别的重加权系数，通常以逆概率的形式出现。它的作用是为梯度更新分配权重，直观上，对于概率较低（即模型认为不太可能生成）的token，给予更大的更新权重，因为这些token可能包含更重要的信息。

对于SFT，其目标函数是最大化对数似然。求导后，分母自然地变成了当前策略。
对于在线RL算法（如PPO），数据是由一个旧版本的策略生成的（即rollout policy），因此参考策略分母就是。这是重要性采样的直接体现。
对于离线RL算法，由于无法获取生成数据的策略，通常会做一个简化假设，令。

稳定化掩码 (Stabilization Mask)
这个组件源于PPO算法中的裁剪（clipping）操作。其目的是为了防止单步更新过大，导致策略崩溃，从而保证训练的稳定性。当策略更新的幅度（通过当前策略与参考策略的比值来衡量）超出一个安全的“信任区域”时，这个掩码会生效，将梯度置为零，从而“关闭”这次更新。后续的算法如CISPO等，也对这个掩码进行了各种形式的改进。

统一视角下的所有SFT和RL公式带入

UPGE框架清晰地表明，SFT和RL并非两个截然不同的过程，而是共享同一个优化目标的梯度估计的不同实例。它们的区别在于对数据分布的假设不同，以及在偏差-方差权衡（bias-variance tradeoff）上做出了不同的选择。

SFT：使用当前策略 π_θ 作为参考策略，相当于进行了有偏的梯度估计，但方差较低，学习过程稳定。
在线RL（如REINFORCE）：使用生成数据的策略作为参考策略，是无偏估计，但方差很高，训练不稳定。
在线RL（如PPO）：使用旧策略 π_θold作为参考策略，是在偏差和方差之间的一种权衡，通过裁剪操作进一步控制方差。
离线RL：假设 π_ref = 1，引入了较大的偏差，以换取在没有rollout策略信息的情况下进行训练的可行性。

这个统一的视角不仅为理解现有算法提供了深刻的洞察，更重要的是，它启发我们可以通过组合和设计这四个组件，来构建更优、更适应具体场景的后训练算法。这正是论文提出的“混合后训练”（HPT）算法的理论基础。

混合后训练 (HPT)

HPT的核心思想是：根据模型在任务上的实时表现，动态地、自适应地在SFT和RL两种学习信号之间进行切换。

这个设计的直觉非常清晰：

当模型能力较弱，在某个问题上频繁出错、无法获得有效奖励信号时，强制其学习高质量的专家示范（SFT）是更有效的指导方式。这相当于利用（Exploitation）已知的正确路径。
当模型已经具备一定的能力，能够在问题上取得一些成功（即rollout能获得正奖励）时，就应该给予其更多的自由度，让它通过强化学习去探索（Exploration）可能存在的更优解法，进一步提升能力上限。

HPT算法通过一个巧妙的混合损失（Mixed Loss）机制来实现这种动态切换。

HPT算法流程

输入：一个预训练的LLM（策略）π_θ，一个包含（问题 q，监督轨迹 τ*）的SFT数据集，一个用于评估生成答案正确与否的验证器（verifier），以及其他超参数。

训练循环：
对于SFT数据集中的每一个问题 q：

在线采样 (Rollout) ：使用当前模型策略 π_θ 生成 n 个候选答案轨迹 r_i。
性能评估：使用验证器 v 评估每个轨迹的奖励 R(τ_i) = {0, 1}。然后计算模型在该问题上的平均性能 P = 1/n(求和R(τ_i))。
动态门控：根据性能 P 和一个预设的阈值 γ，确定RL损失和SFT损失的权重系数 α 和 β。
计算损失：使用在线采样的轨迹 τ_i 和奖励 R(τ_i) 计算on-policy RL损失 L_RL 。使用监督轨迹计算SFT损失 L_SFT。
混合损失与更新：计算最终的混合损失 L = αL_RL + βL_SFT，并用其梯度更新模型参数 θ。

混合损失 (Mixed Loss)

α 和 β的取值和定义

根据模型性能 P 动态决定的。论文中使用了一个简单而有效的开关函数：
这里的 P 是模型在当前问题上 n 次采样（rollouts）的平均成功率。 γ 是一个“门控阈值”（gate threshold）。

这个机制的含义是：

如果模型的平均成功率 P大于阈值γ ，那么就设置 α=1, β=0。此时，总损失=L_RL ，模型完全通过强化学习进行更新。这表示模型在该问题上已经“入门”，可以开始进行探索性学习了。
如果模型的平均成功率 P小于等于阈值 γ，那么就设置 α=0, β=1。此时，总损失=L_SFT ，模型完全通过监督微调进行更新。这表示模型在该问题上表现不佳，需要通过模仿专家示范来获得正确引导。

阈值γ的选择：
阈值 γ 控制了算法在SFT和RL之间的切换灵敏度。
在实验中，作者对Qwen系列模型设置，这意味着只要模型在 n 次尝试中哪怕有一次成功（P>0），就会切换到RL模式。
这是一种鼓励探索的设置。而对于LLaMA模型，则设置了更高的阈值，这表明阈值的选择可能与模型家族的特性有关。

L_RL 和 L_SFT 的具体形式：

SFT损失：这就是标准的交叉熵损失，旨在最大化模型生成监督轨迹 τ* 的对数似然
RL损失：论文中采用了Dr. GRPO（一种GRPO的变体）作为on-policy的RL算法。其损失函数形式如下：

通过这种问题级别（per-question）的动态损失加权，
HPT算法实现了在利用（exploitation）和探索（exploration）之间的自适应平衡。
它不是一个固定的混合比例，也不是一个预设的调度方案，而是完全由模型自身的实时能力反馈所驱动，这使得训练过程更加智能化和高效。

实验与分析

模型：涵盖了Qwen家族（Qwen2.5-Math-1.5B, Qwen2.5-Math-7B）和LLaMA家族（LLaMA-3.1-8B），以验证算法的通用性。
基准：包括6个分布内的数学推理基准（AIME 2024, AIME 2025, AMC, MATH-500, Minerva, OlympiadBench）和2个分布外的泛化能力基准（GPQA-Diamond, ARC-c）。

基线方法：
纯SFT
纯GRPO (一种先进的RL算法)
SFT → GRPO (标准的序贯方法)
LUFFY, SRFT (其他混合SFT和RL的方法)
多种Zero-RL方法（在基础模型上直接进行RL）

主要结果

Qwen2.5-Math-7B上的在分布和分布外性能对比

实验结果（如Table 2所示）表明，HPT在几乎所有的基准测试和模型上都取得了优于或持平于所有基线方法的性能。
在Qwen2.5-Math-7B模型上，HPT的平均性能达到了52.7%，显著高于SFT（44.5%）、GRPO（43.1%）、SFT→GRPO（46.5%）以及LUFFY（49.8%）等强基线。特别是在挑战性的AIME 2024基准上，HPT取得了33.0%的成绩，相比最强的基线LUFFY（26.1%）有近7个百分点的提升。
在分布外泛化能力测试上，HPT同样表现出色，平均分达到62.3%，超过了所有对比方法，显示出其良好的泛化性能。
LLaMA3.1-8B和Qwen2.5-Math-1.5B上的性能对比

在其他模型上，包括能力相对较弱的LLaMA3.1-8B和Qwen2.5-Math-1.5B，HPT同样展现了巨大的性能提升。这证明HPT不仅对强模型有效，也能帮助弱模型更好地学习。
例如，在LLaMA3.1-8B上，HPT的平均分（18.2%）是基座模型（4.6%）的近4倍，也远超SFT（5.9%）和GRPO（9.6%）。
这些结果有力地证明了HPT的有效性。它不仅优于单独使用SFT或RL，也优于简单的序贯结合或静态混合策略。动态调整学习信号的方式，确实能够更有效地提升模型的推理能力。

深入分析：探索与利用的平衡

Pass@k 性能分析Pass@k指标衡量的是，模型生成k个答案中至少有一个是正确的概率。它不仅能评估模型的单次生成准确率（Pass@1），还能反映模型的探索能力和能力上限（大的k值）。
Qwen2.5-Math-7B上的Pass@k性能对比

Figure 2的Pass@k曲线显示了一个有趣的现象：
包含SFT的方法（SFT, SFT→GRPO, LUFFY, HPT）在大k值下的性能普遍高于纯RL方法（GRPO）。这可能是因为SFT引入了来自模型自身分布之外的数据，增加了输出的多样性，从而提升了探索的广度。
一个直观的猜测是，HPT作为SFT和GRPO的动态混合，其Pass@k性能应该介于两者之间。但实验结果恰恰相反，HPT在所有k值上都取得了最高的性能。这表明HPT不仅仅是简单的插值，它成功地将SFT带来的知识广度和RL带来的深度探索结合起来，既提升了Pass@1的准确率，又最大化地保留并增强了模型的探索能力。

训练动态可视化

SFT→GRPO的训练动态

HPT与SFT→GRPO的性能差异

通过可视化模型在训练过程中对每个问题的解决能力变化，可以更直观地看到不同训练策略的效果。

Figure 3显示，纯GRPO训练（在SFT之后）在很多难题（Level 5）上会陷入“白色区域”，即模型在多个epoch中始终无法生成正确答案，导致学习停滞。这是RL方法在面对稀疏奖励问题时的典型困境。
Figure 4对比了HPT和SFT→GRPO的性能差异（红色代表HPT更优）。可以看到，在训练后期，红色区域占据了主导，尤其是在难题（Level 5）上。这说明HPT通过在困难问题上动态切换回SFT，有效地克服了RL的学习停滞问题，从而实现了更强的学习能力。

离线数据比例动态

训练过程中离线数据比例的动态变化

Figure 6展示了在HPT训练过程中，SFT损失（代表离线数据信号）所占比例的变化。

在训练初期，模型能力较弱，SFT的比例很高，表明模型主要在模仿学习。
随着训练的进行，模型能力提升，on-policy的奖励增加，SFT的比例逐渐下降并稳定在一个较低的水平，表明模型转向以RL为主的探索学习。
对比能力较弱的1.5B模型和较强的7B模型，可以发现7B模型更快地从SFT主导阶段过渡到RL主导阶段。这完全符合HPT基于性能反馈的自适应设计。