ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION

文章主要内容总结

本文聚焦于大语言模型(LLM)的监督微调(SFT)方法,旨在解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,作者揭示了标准SFT的梯度更新隐含一种有问题的奖励结构——其奖励信号稀疏且与专家行为的概率成反比,导致梯度方差无界、优化不稳定,进而限制模型泛化能力。

为解决这一问题,作者提出动态微调(Dynamic Fine-Tuning, DFT) 方法:通过用每个token的概率动态重新缩放SFT的目标函数,稳定梯度更新,修正奖励结构。实验表明,仅需一行代码修改的DFT在多个数学推理基准测试(如Math500、Olympiad Bench等)和不同基础模型(如Qwen2.5-Math、LLaMA-3等)上显著优于标准SFT,尤其在SFT易过拟合的高难度任务上表现出更强的泛化能力。此外,DFT在离线RL场景中也优于DPO、PPO等现有方法,成为一种更简单高效的替代方案。

创新点

  1. 理论视角创新:首次从强化学习角度严格建立SFT与策略梯度的数学等价性,揭示SFT梯度中存在的“逆概率加权”是导致其泛化能力差的核心原因。
  2. 方法创新:提出DFT方法,通过token级概率重加权修正SFT的目标函数,将不稳定的梯度更新转化为稳定的均匀加权过程,仅需一行代码修改。
  3. 实验优势:在多个模型、任务和数据规模上验证了DFT的优越性,不仅超越标准SFT,还在离线RL场景中超过DPO、PPO等经典方法,且计算成本更低。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值