简介
论文揭示反直觉现象:在LLM后训练中,强化学习(RL)比监督微调(SFT)更能保持模型通用能力。SFT通过拟合外部专家数据导致分布偏移,破坏原有参数结构;而RL通过On-Policy数据自我一致性和KL约束等机制实现分布锐化,在提升特定任务能力的同时保护模型通用知识。RL不是"死记硬背",而是"自我修正",是保持模型智商的有效手段。
在LLM的后训练(Post-training)阶段,我们通常面临一个经典的权衡:如何在提升下游特定任务(Downstream Task)性能的同时,尽可能保持预训练模型(Pre-trained Model)的通用能力。
最近 arXiv 上的一篇论文《Retaining by Doing》揭示了一个颇具反直觉的现象:在达到相同下游任务性能的前提下,强化学习(RL)相比于监督微调(SFT),对原始通用能力的遗忘程度显著更低。
本文不堆砌数学公式,仅从优化机理和数据分布的视角,结合知乎相关讨论,定性地分析这一现象背后的逻辑。

1. 问题定义:SFT与RL的本质差异
为了讨论遗忘问题,我们首先需要明确两种范式的定义(Setup):
- **SFT (Supervised Fine-Tuning):**本质是**Behavior Cloning (BC)**。给定专家策略生成的轨迹 (Prompt + Gold Response),最大化模型生成该轨迹的似然概率。注意,这里的SFT数据分布通常只包含下游任务,不包含Pretrain数据。
- **RL (Reinforcement Learning):**这里指 PPO 或 GRPO 等策略优化方法。目标是最大化 。其中 是当前策略, 是参考策略(通常是初始模型)。
2. SFT致遗忘的机理:Off-Policy 的强制拟合
SFT 的核心风险在于其 Off-Policy 的特性。
在SFT过程中,训练数据的分布 是由外部(专家或更强模型)给定的。这个分布往往是一个高度特化的分布,与模型预训练时的通用分布 存在显著的 Domain Shift。
SFT 的优化目标极其单纯:让模型拟合 。 这就好比我们不仅要求模型学会“开汽车”(下游任务),还要求模型必须严格模仿教练的每一个细微动作。如果“开汽车”的最优动作空间与模型原本掌握的“骑自行车”(通用能力)的动作空间不重叠,为了最小化 Cross-Entropy Loss,梯度下降会驱动参数大幅度偏离原始区域。
逻辑结论: SFT 导致的是 Distribution Shift(分布平移)。由于缺乏对原始分布的约束,模型为了迎合局部最优解(SFT数据),会不可避免地破坏参数原本的全局特征,从而导致严重的灾难性遗忘。
3. RL抗遗忘的机理:On-Policy 与分布锐化
相比之下,RL 展现出了天然的抗遗忘特性,论文将其归结为 **“Retaining by Doing”**。其优势主要源于以下两点:
A. On-Policy Data 的自我一致性
RL 的训练数据(Trajectory)是模型自己采样生成的。 这意味着,模型生成的 Responses 天然处于其当前的参数分布之内。RL 的过程不是在模仿一个“异质”的外部专家,而是在模型已有的能力边界内进行筛选。
模型通过“做”(Doing/Sampling)来探索解决路径。这种 On-Policy 的数据生成方式,保证了语言风格、逻辑链路与模型本身的内在一致性。模型不需要为了模仿某种陌生的表达方式而破坏原本的权重结构。
B. 优化目标的约束性
RL 的优化过程包含两个关键的维稳机制,这在 SFT 中是缺失的:
- **KL Divergence Penalty:**RL 的 Loss 显式地包含了一个正则项 。这在数学上给出了一个明确的指令:优化可以,但不能离初始模型太远。 这就像一根弹簧,当参数试图剧烈偏移以获取更高 Reward 时,KL Loss 会产生反向梯度将其拉回。
- **Trust Region / Clipping (如 PPO):**不同于 SFT 只要 Loss 大就大幅更新,RL(特别是 PPO)通过 Clip 机制限制了单步更新的幅度(Trust Region)。它剔除了那些会导致概率比率(Ratio)剧烈波动的更新请求。
逻辑结论: RL 导致的是 Distribution Sharpening(分布锐化)。 RL 并没有试图将分布平移到未知的区域,而是压低低分路径的概率,拔高高分路径的概率。它是在“雕琢”原有的分布,而非“重塑”。因此,模型能够在掌握新任务(高 Reward)的同时,保留住那些未被负反馈抑制的通用能力。
4. 总结与推论
我们可以用一个直观的类比来总结上述分析:
- SFT 类似于“死记硬背”: 给定标准答案,强行让模型记住。如果标准答案的逻辑与模型原有的认知体系冲突,模型会被迫覆盖原有认知,导致遗忘。
- RL 类似于“自我修正”: 模型用自己的知识去尝试解题,裁判给出分数。模型只是强化了自己思维中“对”的那部分。这种基于自身分布的探索(On-Policy Exploration)配合 KL 约束,天然地保护了模型的基座能力。
这解释了为什么 DeepSeek-R1 等工作倾向于使用强化学习来激发推理能力。RL 不仅是提升能力的手段,更是保护模型通用性(Generalization)的有效屏障。 在后训练阶段,如果我们希望模型在特定任务上精进且不丢失通用智商,应当更多地依赖 RL 的分布锐化机制,而非 SFT 的分布平移机制。
AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线


03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解


05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

445

被折叠的 条评论
为什么被折叠?



