一行代码提升大模型性能：从强化学习视角优化SFT的DFT方法

这是一篇非常有启发性的论文，它从一个全新的理论视角——强化学习（Reinforcement Learning, RL）——来审视并改进了当前大模型训练中广泛使用的监督微调（Supervised Fine-Tuning, SFT）。

研究者通过数学推导发现，传统的 SFT 方法在更新模型参数时，其梯度形式等价于一种带有「缺陷奖励机制」的强化学习。
这个缺陷会导致模型过分关注那些它本不确定的样本，从而引发训练不稳和泛化能力差的问题。
基于此洞见，论文提出了一种名为「动态微调」（Dynamic Fine-Tuning, DFT）的简单优化方案。通过在计算损失时，动态地乘以一个与当前词元（token）概率相关的权重，DFT 巧妙地修正了这个有问题的奖励机制。
这个只需一行代码的改动，在多个数学推理基准测试中，让不同模型的性能都获得了远超传统 SFT 的提升，甚至在某些场景下超越了更复杂的强化学习方法。

论文：[2508.05629] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

一、背景知识：SFT Vs RL

在驯服像 GPT、Llama、Qwen 这样强大的基础模型时，我们通常会走两条路，这很像我们人类学习知识的两种方式。

监督微调 (SFT) ：我们收集成千上万个高质量的问答对喂给模型，通过优化算法让它模仿。

优点：这个过程非常简单、直接、高效。模型能很快学会专家的说话方式和知识，就像学生能快速背下课本内容一样。
缺点：致命的缺点是泛化能力差。这个学生只会死记硬背，考试时如果题目稍微变个花样，他就很可能答不上来。在 AI 领域，这叫做过拟合（Overfitting）。模型只是记住了训练数据的「模式」，却没有真正理解背后的「原理」。

强化学习（RLHF）：我们给学生（LLM）聘请一位经验丰富的私人教练（奖励模型/规则）。学生每次尝试回答问题，教练都会给出评价（Reward），学生根据这些反馈不断调整自己的学习策略。根据奖励来源、设计方式的不同，又可以分为 RLHF（带人类反馈的强化学习）和 RLVR（带可验证奖励的强化学习）等方法。

优点：模型的泛化能力强。因为它不是在模仿单一的正确答案，而是在探索一个广阔的「好答案空间」，学会了什么是「好」的原则，因此能更好地应对新问题。
缺点：这个过程复杂且昂贵。首先，如果我们选择训练一个可靠的奖励模型（通常在 RLHF 中需要）本身就耗时耗力。其次，强化学习的训练过程非常不稳定，对各种超参数极其敏感，计算资源消耗也很大。

学术界有一个精辟的总结：「SFT 负责记忆，RL 负责泛化」（SFT memorizes, RL generalizes）。

本文的作者试图思考一个问题：SFT 本身，就不能变得更聪明吗？我们能不能不引入 RL 的复杂性，直接修复 SFT 的泛化缺陷？

在这里插入图片描述

二、用 RL 的视角审视 SFT

如果我们假设 SFT 也是一种强化学习，那么它的「奖励机制」会是什么样的？

2.1 策略梯度（Policy Gradient）

在强化学习中，有一类方法叫做策略梯度，它告诉我们应该如何调整模型的参数，才能让它获得更高的奖励。它的简化形式看起来是这样的：

这个公式可以拆解成两部分：

：这是梯度的方向。它告诉我们参数应该往哪个方向调整，才能增加生成答案的概率。
：这是奖励（Reward）。它是一个标量，决定了我们这次调整的步子迈多大。如果奖励很高，我们就朝那个方向迈一大步；如果奖励很低，就迈一小步，甚至是负的奖励就往反方向调整。

2.2 SFT 的梯度

SFT 的目标是让模型生成专家答案的概率最大化。它的损失函数是：

对这个损失函数求梯度，我们得到 SFT 的参数更新方向：

2.3 重要性采样

现在，SFT 的梯度和 RL 的策略梯度看起来还不太一样。SFT 的计算是基于固定的专家数据（这在 RL 里叫 off-policy），而 RL 的策略梯度是基于模型自己生成的样本（on-policy）。

为了让两者能直接对话，我们引入 off-policy RL 常见的技巧 重要性采样（Importance Sampling）。这个技巧的本质是，我们可以把一个基于 A 分布的计算，转换成一个基于 B 分布的计算，只需要乘上一个 A/B 的修正权重。

这样 SFT 的梯度变身成了和 RL 策略梯度一样的「on-policy」形式：

2.4 等价性

现在，让我们把变身后的 SFT 梯度和 RL 的策略梯度公式并排放在一起：

RL 策略梯度:
变身后的 SFT 梯度: 。忽略了负号，因为最小化损失和最大化奖励是一样的。

这样一来：传统的 SFT，在数学上等价于一个特殊的强化学习过程：

隐式奖励 (Implicit Reward) 是。这是一个指示函数，意思是：只有当模型生成的答案和专家答案一模一样时，奖励才是 1，否则奖励就是 0。
这个梯度更新还被一个权重所加权。

三、SFT 的缺陷

通过前面的分析，我们发现 SFT 背地里其实是在遵循一套非常奇特的强化学习奖励机制。而这套机制，正是导致他只会死记硬背、不懂变通的罪魁祸首。

3.1 缺陷一：极其稀疏的奖励

SFT 的隐式奖励是。这意味着，模型必须生成一个与标准答案一字不差的完整句子，才能得到 1 的奖励。哪怕只错了一个标点符号，奖励也是 0。

这种奖励机制过于严苛和稀疏，让模型很难学到「部分正确」的概念，也难以探索多样的表达方式。

3.2 缺陷二：与自信成反比的奖励权重

如果说稀疏奖励只是有点苛刻，那么这个权重项，则可以说是畸形和有害的。

代表了模型对于生成正确答案的自信程度（概率）。这个权重项意味着，最终的梯度更新大小，与模型的自信程度成反比。

让我们回到学生学习的类比中，SFT 的这位「隐形导师」的评分标准是：

对于一个问题，比如「1+1=?」，学生非常自信地答出「2」（很大，比如 0.99）。导师会说：嗯，不错。奖励你0.01分（梯度更新很小）
对于另一个非常难的奥数题，学生完全是瞎蒙的，磕磕绊绊猜出了正确答案（极小，比如 0.0001）。导师会突然变得异常兴奋，激动地喊道：天哪！你居然做出来了！太不可思议了！奖励你10000分（梯度更新极大）

这种奖励机制会带来灾难性的后果：

训练极其不稳定：当模型遇到一个它认为概率极低的正确答案时，会变成一个巨大的数值，导致梯度爆炸。这就像给学生打了一针强效兴奋剂，让他的大脑（模型参数）剧烈震荡，无法平稳学习。
严重过拟合：模型会不成比例地关注那些训练数据中罕见的、奇怪的、低概率的正确样本。它会耗费大量精力去「钻牛角尖」，试图记住这些偶然事件，而不是去学习那些普遍的、高概率的、真正重要的规律。
泛化能力差：最终，学生的基础知识（普遍规律）学得一塌糊涂，却对各种偏门怪题的「标准答案」记忆犹新。一旦遇到新问题，自然就束手无策了。

至此，病因已经完全明确。SFT 之所以泛化能力差，根源就在于其梯度更新中隐藏的这个权重，它构成了一个病态的、不稳定的、鼓励过拟合的优化环境。

四、DFT：一行代码，妙手回春

4.1 治疗原理

有问题的部分是这个权重。我们该如何消除它的负面影响？作者的选择非常简单：再乘上一个，把它抵消掉。

这就是论文提出的动态微调（Dynamic Fine-Tuning, DFT） 的核心思想。我们对原始的 SFT 梯度进行修正：

这里的代表 stop-gradient（停止梯度）操作。它意味着，我们只是借用的值来作为权重，调整梯度的大小，但我们不希望梯度通过这个权重本身进行传播。通俗地说，我们只想修正 SFT 梯度的大小，而不改变它本身指向的优化方向。

4.2 DFT 损失函数

这个修正后的梯度，对应到一个新的损失函数。在实际操作中，我们通常将损失计算分解到每一个词元（token）上。最终，DFT 的损失函数变成了这个形式：

这看起来可能有点复杂，但让我们把它翻译成伪代码，你会立刻感受到它的简洁之美：

# 传统的SFT损失（伪代码）
log_probs = log_softmax(logits)
sft_loss = -log_probs[target_token_id]

# DFT损失（伪代码）
log_probs = log_softmax(logits)
probs = softmax(logits)

token_prob = probs[target_token_id]
token_log_prob = log_probs[target_token_id]

# 核心改动：在SFT损失前，乘以该token的概率
dft_loss = -stop_gradient(token_prob) * token_log_prob

真正的核心改动只有一行代码。 我们只是在计算每个正确词元的损失时，额外乘以了模型对这个词元的预测概率。

4.3 DFT 的「学习哲学」

这个简单的改动，彻底改变了模型的学习哲学：

SFT 的哲学：越不自信，越要下猛药。
DFT 的哲学：稳扎稳打，全面发展。

在 DFT 的机制下，损失值在自信度 p 两端趋近 0。这意味着，模型会暂时「忽略」它完全搞不懂的知识点，避免在上面花费过多精力、产生剧烈震荡。它会优先学习那些它能理解和掌握的知识。

这更像一个优秀的学习者：先打好坚实的基础，再去攻克难题，而不是在一个难题上死磕到底，结果基础全忘了。

4.4 一个有趣的反面对比：Focal Loss

值得一提的是，DFT 的设计哲学与计算机视觉领域一个著名的损失函数Focal Loss截然相反。

Focal Loss: 。它通过这个因子，降低了模型已经很自信（很大）的「简单样本」的权重，让模型更专注于学习那些它搞不懂的「困难样本」。它的目标是解决欠拟合问题。
DFT: 。它通过这个因子，降低了模型非常不自信（很小）的「困难样本」的权重，避免模型在它们身上过拟合。它的目标是解决过拟合问题。

这种鲜明的对比，可能正反映了 AI 发展的时代变迁：在过去，模型能力不足，我们担心它学不够（欠拟合）；而今天，LLM 的记忆和拟合能力超强，我们更担心它学过头（过拟合）。DFT，正是为 LLM 时代量身定做的解决方案。

五、实验结果

5.1 发现一：DFT 全方位超越 SFT

如上表所示，在 Qwen、LLaMA、DeepSeekMath 等多个主流模型上，DFT 带来的性能提升远超 SFT。

5.2 发现二：越是难题，DFT 越有用

还是上面那张表，SFT 的过拟合问题在难题上暴露无遗。在一些奥林匹克级别的数学竞赛（Olympiad Bench, AIME24）上，SFT 甚至会让模型性能下降。因为它让模型学到了一些只在训练集有效的「解题歪招」。

而 DFT 在这种高压环境下，表现出了很强的鲁棒性，比如 Qwen2.5-Math-7B 在 AIME24 benchmark 上的表现：

基础模型得分：6.68
SFT 后得分：2.48 (下降了 4.2 分）
DFT 后得分：8.56 (提升了 1.88 分）

这暗示 DFT 确实学会了更根本、更通用的解题原则，而不是在死记硬背。

5.3 发现三：DFT 是更高效的学习者

在这里插入图片描述

从上图的学习曲线可以看出，DFT 不仅最终效果好，学习速度也更快。在多数任务上，DFT 在训练刚开始（约 10-20 步）的性能，就已经超过了 SFT 训练到最后的最佳性能。这意味着 DFT 的梯度更新更有效、更稳定，能引导模型更快地走向最优解。

5.4 发现四：DFT 如何重塑概率分布

在这里插入图片描述

作者们做了一个分析，探究了不同方法如何改变模型对正确答案的概率分配。

SFT：试图普遍提升所有正确词元的概率。它的策略是「雨露均沾」，但结果是重点不突出。
DFT 和 RL 方法：则表现出一种惊人的 「两极分化」 效应。它们会极大地提升一部分词元的概率，同时主动地降低另一部分词元的概率。

深入分析发现，被降低概率的，大多是像 the/let/,/. 这样的语法功能词或连接词。而被提升概率的，则是承载核心语义的关键数字和术语。

这说明，DFT 教会了模型「抓重点」。它让模型把信心（高概率）集中在那些真正重要的内容上，而对那些语法性的、不那么重要的部分保持「平常心」。这是一种更智能、更高效的资源分配策略，也是其强大泛化能力的内在写照。

5.5 发现五：DFT 在 RL 场景中依然有效

作者们还做了一个探索性实验：在一个有正负样本的「离线 RL」场景下，DFT 的表现如何？

DFT 作为一个极其简单的微调方法，其性能不仅超过了 DPO、RFT 等专门的离线 RL 算法，甚至还超过了 PPO、GRPO 这种更复杂、需要在线交互的在线 RL 算法。

这说明 DFT 的潜力可能远超我们的想象。它提供了一个强大、简单、高效的基准，甚至可以作为更复杂 RL 方法的有力替代品。

六、总结

6.1 贡献与启发

理论突破：首次从强化学习视角，严格证明 SFT 等价于带有病态奖励机制的策略梯度方法，为理解 SFT 泛化能力差提供新理论基础。
问题定位：明确指出 SFT 梯度更新中隐含的权重导致训练不稳定和罕见样本过拟合。
方法创新：提出动态微调（DFT），通过在损失函数中乘以权重，仅需「一行代码」即可修正 SFT 缺陷，使优化过程更稳健。
实证优势：在多个高难度数学推理任务上，DFT 显著优于 SFT，尤其在 SFT 失效场景下表现更鲁棒，强力支持其提升泛化能力的结论。
范式启发：

对抗过拟合：DFT 抑制对低概率样本的过度反应，理念与 Focal Loss 相反，提示 LLM 微调时防止过拟合更为关键。
大道至简：强调基础技术的重新审视，理论洞察可带来最简洁有效的实践方案。

6.2 局限与挑战

任务局限：实验仅覆盖数学推理，DFT 在开放性任务（如创意写作、代码生成、对话）上的效果尚待验证。
规模验证不足：目前仅在最大 7B 左右模型上测试，DFT 在更大规模模型上的有效性需进一步实验确认。
知识探索风险：DFT 降低对低概率正确样本的关注，可能导致模型难以学习反直觉但正确的新知识，带来「保守性」问题。
数据质量依赖：DFT 依赖高质量专家数据，若数据噪声多，可能忽略纠正模型偏见的机会。
学习僵化风险：损失项在趋近于 0 时梯度消失，模型可能彻底失去修正极低概率知识的能力，造成「学习僵化」。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述