大模型训练新突破：统一框架让SFT与RL强强联合，性能飙升7个百分点

最新推荐文章于 2025-11-01 15:39:54 发布

原创最新推荐文章于 2025-11-01 15:39:54 发布 · 799 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #ai #大语言模型 #deepseek #微调 #本地部署

本文介绍清华大学等机构提出的统一策略梯度估计器(UPGE)框架，首次从理论层面统一了监督微调(SFT)与强化学习(RL)两种大模型后训练方法。基于此设计的混合后训练算法(HPT)能根据模型性能自适应切换学习策略，在数学推理任务上超越现有方法7个百分点。研究证明SFT与RL本质上是同一优化目标在不同条件下的体现，为LLM后训练提供了理论基础和实用方案。

前排提示，文末有大模型AGI-优快云独家资料包哦！

引言

在大语言模型（LLM）能力持续突破的背景下，提升其在数学推理、复杂问题解决等长逻辑链任务上的表现，是学术界与工业界的核心议题。目前，主流的后训练（Post-Training）方法分为两类：

监督微调（Supervised Fine-Tuning, SFT）：基于人类编写的高质量示范答案进行模仿学习。此方法收敛稳定，但模型易过拟合于示范数据分布，泛化能力受限。
强化学习（Reinforcement Learning, RL）：通过与环境交互并根据奖励信号进行策略优化。此方法具备探索更优解的潜力，但训练过程通常不稳定，且在奖励稀疏时学习效率低下。

将SFT与RL相结合是一个符合直觉的优化方向。然而，现有的混合方法多采用对二者损失函数进行简单加权求和的方式，缺乏坚实的理论基础来解释其内在关联。SFT与RL的优化目标在根本上是互补还是冲突？这一问题尚待解答。

击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

论文：Towards a Unified View of Large Language Model Post-Training

链接：https://arxiv.org/abs/2509.04419

本文介绍一篇由清华大学等机构合作完成的论文，该工作首次从理论层面统一了SFT与RL的优化目标。论文提出了统一策略梯度估计器（Unified Policy Gradient Estimator, UPGE），并基于此设计了一种混合后训练算法（Hybrid Post-Training, HPT）。HPT能根据模型的实时性能表现，自适应地选择学习策略。实验结果表明，HPT在多个数学推理基准上取得了超越现有最佳方法的性能，并验证了其对不同模型规模的有效性。

这项工作不仅是一次技术实践的成功，更提供了一个深刻的理论视角：SFT与RL并非相互独立，而是可以被视为同一优化目标在不同条件下的具体实现。

背景与动机：现有方法的局限与理论空白

监督微调（SFT）与强化学习（RL）的内在局限

SFT：作为一种模仿学习，SFT使模型能快速掌握特定任务的解决范式。其主要缺陷是泛化能力不足，模型倾向于复现训练数据中见过的模式，对分布外（Out-of-Distribution）问题的处理能力较差。
RL：作为一种试错学习，RL通过奖励驱动的探索来发现新的、可能更优的策略。其挑战在于训练的稳定性和效率，特别是在模型初始能力较弱时，难以获得正向奖励信号，导致学习过程停滞或收敛至次优策略。

现有混合方法的理论不足

已有的混合方法（如LUFFY, SRFT）通过静态权重或基于熵等指标的启发式规则来组合SFT与RL损失。尽管这些方法在实践中取得了一定的效果，但它们未能从根本上回答以下问题：

两种异构的损失函数为何可以线性组合？
最优的混合策略应如何确定？
SFT与RL是否指向一个共同的优化目标？

论文指出，只有在梯度层面建立统一框架，才能从根本上理解和分析这些方法的内在联系与差异。

核心理论：统一策略梯度估计器（UPGE）

UPGE的通用形式

论文提出了一个能够涵盖SDE、RL及混合方法的统一策略梯度形式：

这个公式可以理解为：梯度 = 稳定性控制 × 重要性权重 × 优势信号 × 策略更新方向。

核心组件分析

稳定性掩码 (M(τ))

功能：控制策略更新的步长，防止因梯度更新过大而导致的模型性能崩溃。
示例：PPO算法中的clip操作即为一种典型的稳定性掩码。

参考策略分母 (Q(a|s))

功能：对不同token的梯度进行加权，调整其在更新中的重要性。
示例：SFT使用当前策略π(a|s)，倾向于放大低概率token的梯度；PPO使用旧策略π_old(a|s)以限制更新幅度。

优势估计 (A(τ))

功能：评估一个生成序列相对于基线（Baseline）的优劣程度。
示例：SFT中，所有示范样本的优势值A(τ)可视为1；RL中通常采用归一化的奖励值，如GRPO中基于组内排序的优势。

似然梯度 (∇θ log π(a|s))

功能：策略梯度方法的基础，负责将计算出的梯度信号反向传播至模型参数。所有方法共享此项。

从共同优化目标推导UPGE

本文的核心理论贡献在于证明了SFT与RL均可被视为对同一个联合目标函数的优化：该目标函数包含两项：

第一项是期望奖励最大化（RL的目标）；
第二项是与示范策略的KL散度最小化（SFT的目标）。

通过对该联合目标进行梯度推导并应用重要性采样，即可导出UPGE的通用形式。这揭示了SFT与RL本质上是同一优化目标在不同数据分布假设和侧重点下的具体体现。

梯度分量与偏差-方差权衡

不同算法对UPGE四个组件的选择，反映了其在**偏差（Bias）与方差（Variance）**之间的权衡：

SFT：依赖于固定的示范数据，具有低方差和高偏差。
在线RL：依赖于模型自身的采样，具有低偏差和高方差。
PPO等算法：通过引入clip等机制降低方差，但可能以引入一定偏差为代价。

UPGE框架的价值在于提供了一个模块化的分析工具，允许研究者根据具体任务的需求，通过组合不同组件来设计具有特定偏差-方差特性的新算法。

算法实现：混合后训练（HPT）

基于UPGE理论，论文设计了HPT算法，其核心是一种基于模型自身性能反馈的自适应训练策略。

动态切换机制

对每个训练样本，模型生成k个候选输出。
根据外部反馈（如执行结果）计算这k个输出的正确率r。
依据正确率r与预设阈值r_0的关系，动态选择损失函数：

其中为指示函数。

自适应损失策略

当r ≤ r_0时（模型表现不佳），系统判定模型尚未掌握解决该问题的基本能力，此时采用**SFT损失 (L_SFT)**，强制模型学习高质量的示范答案。
当r > r_0时（模型表现良好），系统认为模型已具备基础能力，此时切换至**RL损失 (L_RL)**，鼓励其通过探索寻找更多或更优的解法。

在实现中，L_RL采用包含clip和优势归一化的Dr. GRPO损失，L_SFT为标准的交叉熵损失。

实验验证与分析

实验设置

模型：覆盖Qwen2.5-Math-1.5B/7B、LLaMA3.1-8B等不同规模。
基准：包括AIME、MATH等6个数学推理数据集，以及ARC-c、GPQA两个分布外泛化测试集。
基线方法：SFT、GRPO(RL)、LUFFY(Offline RL)、SRFT(Hybrid)等。

主要实验结果

实验数据显示，在几乎所有测试的模型和基准上，HPT均取得了当前最佳（SOTA）性能。特别是在分布外泛化测试集上，HPT的优势尤为突出。例如，在Qwen2.5-Math-7B模型上，HPT在AIME 2024基准上的性能比最强的基线方法高出7个百分点。

训练动态分析

探索与利用的平衡：HPT在提升最佳性能（pass@1）的同时，其多样性指标（pass@1024）也显著高于纯RL方法，表明该算法有效平衡了利用（exploitation）与探索（exploration）。
知识的习得与保留：分析表明（见表4），HPT能有效解决更多高难度问题（红色数字），并且不会遗忘已掌握的知识（绿色数字稳定），展现了稳健的学习动态。

消融实验

离线RL与SFT的作用：实验对比发现，在后训练阶段，直接使用SFT的效果优于复杂的离线RL算法（LUFFY）。这说明高质量的示范数据是极其关键的。
切换阈值r_0的影响：r_0 = 0（即仅在模型完全无法正确解答时才使用SFT）的设置取得了最佳效果。这表明应尽早引入RL进行探索，过度依赖SFT会限制模型的性能上限。

讨论与结论

统一视角的理论意义

UPGE框架首次将SFT、在线RL和离线RL等方法的梯度形式统一起来，揭示了它们作为同一联合目标梯度估计器的内在共通性。这为未来设计和分析LLM后训练算法提供了一个坚实的理论基础。

HPT算法的有效性与适应性

HPT的成功验证了自适应训练策略的有效性。其设计优势在于：

无需手动配置混合权重，算法根据模型性能自动调整。
良好的模型规模扩展性。
符合学习认知规律：在模型能力弱时强化模仿学习，在能力强时鼓励探索创新。

结论

本论文通过统一理论框架和创新的算法设计，为解决SFT与RL在LLM后训练中的融合问题提供了系统性方案。UPGE为理解和比较不同方法提供了共同的语言，而HPT则展示了如何基于性能反馈机制实现模仿与探索的动态平衡。未来的研究方向可包括：探索更精细的梯度组件组合策略、将该框架扩展至多模态任务，以及对偏差-方差权衡进行更深入的理论分析。

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：