一、导读
语言模型(Language Model, LM)在进行下游任务的后训练(Post-Training)时,常常面临灾难性遗忘(Catastrophic Forgetting)的问题,即模型在学习新任务的同时丢失了原有的知识能力。这种现象严重制约了模型在实际应用中的持续学习与适应能力。尽管监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)是两种常用的后训练方法,但它们对遗忘的影响尚未得到系统比较与深入理解。
为解决上述问题,本文提出从策略数据(On-Policy Data) 的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验,论文发现RL因其使用当前策略生成的数据进行训练,相较于SFT表现出更少的遗忘,同时达到相当甚至更高的目标任务性能,并提出使用近似策略数据可在保证效率的同时有效减轻遗忘。
二、论文基本信息

-
论文标题:Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
-
作者:Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen
-
单位:Princeton Language and Intelligence, Princeton University
-
论文链接:https://arxiv.org/pdf/2510.18874
三、研究背景与相关工作
语言模型的后训练主要包括SFT和RL两类方法。SFT通过最小化模型输出与专家响应之间的交叉熵损失来学习,而RL则通过最大化奖励并配合KL正则项来优化策略。传统观点认为,SFT对应的前向KL(Forward KL)具有模式覆盖(Mode-Covering) 特性,应更利于保留多模态知识;而RL对应的反向KL(Reverse KL)具有模式寻求(Mode-Seeking) 特性,可能因聚焦于少数模式而加剧遗忘。

然而,现有研究缺乏对这两种方法在遗忘行为上的系统比较,尤其是在多模态初始策略的实际场景中。此外,尽管已有工作提出KL正则或优势估计(Advantage Estimation)可能是RL缓解遗忘的关键,但这些假设缺乏充分验证。本文在此基础上,首次系统比较了SFT与RL在多种任务与模型上的遗忘表现,并从策略数据的角度提出了新的解释与改进方法。


原文、这里 👉👉 【大语言模型训练】最新合集整理:大模型后训练新突破!普林斯顿陈丹琦团队:RL 靠On-Policy数据,实现 “少遗忘+高增益” 双优
https://mp.weixin.qq.com/s/3bEflCaeoAHZSBDsSrdeag
四、主要贡献与创新
-
系统性实验验证:在指令跟随(IFEval)、通用知识(MMLU)、算术推理(Countdown)等任务上,使用Llama、Qwen等不同规模的模型,系统比较SFT与RL的遗忘行为,发现RL在获得相当目标任务增益(Gain)的同时,非目标任务性能下降(Drop)显著更低。
-
理论建模与直觉构建:将最优策略建模为双高斯混合分布,揭示在多模态初始策略下,反向KL(对应RL)因仅调整部分模式而保留旧知识,而前向KL(对应SFT)因全局覆盖而引发遗忘。
-
关键因素识别:通过消融实验验证RL缓解遗忘的主要原因是其使用策略数据,而非KL正则或优势估计。进一步提出使用近似策略数据(如每轮迭代初生成的数据)可在SFT中有效减轻遗忘,提升训练效率。
五、研究方法与原理
本文核心思路是:通过理论建模与实验验证,揭示RL因使用策略数据而在多模态任务中缓解遗忘的机制。
理论建模
将最优策略 建模为双模态高斯混合:
训练策略 在单模态与多模态设定下分别建模为单高斯或双高斯混合。通过最小化前向KL或反向KL,观察其对旧模式(对应旧任务)的保留能力。
算法对应
-
SFT 对应最小化前向KL:
-
RL 对应最小化反向KL:
其中 由初始策略与奖励函数共同定义。
六、实验设计与结果分析
实验设置
-
数据集:IFEval(13k训练/1.9k测试)、MMLU(12k/2k)、Countdown(10k/1k),另包含MATH、WildJailbreak、WildGuardTest等非目标任务。
-
模型:Llama-3.2-1B/8B-Instruct、Qwen-2.5-1.5B/7B-Instruct。
-
基线方法:SFT(使用专家响应)、Self-SFT(使用初始模型响应)、RL(使用GRPO算法)。
-
评估指标:目标任务增益 、非目标任务下降 。
关键结果
-
RL遗忘显著少于SFT:在所有任务与模型上,RL在获得可比目标任务增益的同时,非任务下降平均低于SFT约20–30%。
-


-
学习率对SFT遗忘影响显著:高学习率()下SFT获得高增益但伴随严重遗忘;低学习率()虽减轻遗忘但学习效率低下。
-
KL正则与优势估计非主要因素:去除KL正则()或使用REINFORCE替代GRPO,RL仍保持低遗忘,说明策略数据是关键。
-

-
近似策略数据有效:Iterative-SFT(每轮初生成数据)在SFT中显著减轻遗忘,且性能接近RL。
-

局限性
-
实验规模限于8B以下模型,未验证极大规模模型下的遗忘行为。
-
理论分析基于简化高斯假设,未覆盖更复杂的真实语言分布。
七、论文结论与评价
本文通过系统实验与理论分析,明确了RL在后训练中因使用策略数据而缓解遗忘的机制,并提出使用近似策略数据作为SFT的高效改进方向。这一发现对语言模型的持续学习与安全部署具有重要启示:策略数据不仅能提升新任务性能,还能有效保护已有能力,为未来构建更稳定、可持续的学习系统提供了理论基础与实践路径。
然而,本文未充分考虑目标任务与旧任务分布差异极大时的遗忘情况(如附录中图8所示),也未深入探讨多任务交替训练中的累积遗忘问题。未来研究可进一步拓展至更大规模模型、更复杂任务序列,并探索策略数据与其他防遗忘技术(如回放缓冲区、参数隔离)的结合使用。
往期推荐
强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!
OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!
NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!
杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!
ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损
RL利用On-Policy数据减少遗忘

1148

被折叠的 条评论
为什么被折叠?



