文章主要内容总结
本文聚焦于大语言模型(LLM)的监督微调(SFT)方法,旨在解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,作者揭示了标准SFT的梯度更新隐含一种有问题的奖励结构——其奖励信号稀疏且与专家行为的概率成反比,导致梯度方差无界、优化不稳定,进而限制模型泛化能力。
为解决这一问题,作者提出动态微调(Dynamic Fine-Tuning, DFT) 方法:通过用每个token的概率动态重新缩放SFT的目标函数,稳定梯度更新,修正奖励结构。实验表明,仅需一行代码修改的DFT在多个数学推理基准测试(如Math500、Olympiad Bench等)和不同基础模型(如Qwen2.5-Math、LLaMA-3等)上显著优于标准SFT,尤其在SFT易过拟合的高难度任务上表现出更强的泛化能力。此外,DFT在离线RL场景中也优于DPO、PPO等现有方法,成为一种更简单高效的替代方案。
创新点
- 理论视角创新:首次从强化学习角度严格建立SFT与策略梯度的数学等价性,揭示SFT梯度中存在的“逆概率加权”是导致其泛化能力差的核心原因。
- 方法创新:提出DFT方法,通过token级概率重加权修正SFT的目标函数,将不稳定的梯度更新转化为稳定的均匀加权过程,仅需一行代码修改。
- 实验优势:在多个模型、任务和数据规模上验证了DFT的优越性,不仅超越标准SFT,还在离线RL场景中超过DPO、PPO等经典方法,且计算成本更低。

订阅专栏 解锁全文
657

被折叠的 条评论
为什么被折叠?



