大模型后训练新突破!普林斯顿陈丹琦团队:RL 靠On-Policy数据,实现 “少遗忘+高增益” 双优

RL利用On-Policy数据减少遗忘

原文👉👉 大模型后训练新突破!普林斯顿陈丹琦团队:RL 靠On-Policy数据,实现 “少遗忘+高增益” 双优 论文下载:关注【LLM炼丹炉】回复【大模型顶会】获取领取 ICML|CVPR|AAAI|ICLR 2025 大模型顶会论文合集

关键词:灾难性遗忘(Catastrophic Forgetting)、语言模型后训练(LM Post-Training)、策略数据学习(On-Policy Data Learning)、强化学习微调(RL Fine-Tuning)、KL散度优化(KL Divergence Optimization)、模式寻求行为(Mode-Seeking Behavior)、监督微调遗忘(SFT Forgetting)、多模态策略分布(Multi-Modal Policy Distribution)

一、导读

语言模型(Language Model, LM)在进行下游任务的后训练(Post-Training)时,常常面临灾难性遗忘(Catastrophic Forgetting)的问题,即模型在学习新任务的同时丢失了原有的知识能力。这种现象严重制约了模型在实际应用中的持续学习与适应能力。尽管监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)是两种常用的后训练方法,但它们对遗忘的影响尚未得到系统比较与深入理解。

为解决上述问题,本文提出从策略数据(On-Policy Data) 的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验,论文发现RL因其使用当前策略生成的数据进行训练,相较于SFT表现出更少的遗忘,同时达到相当甚至更高的目标任务性能,并提出使用近似策略数据可在保证效率的同时有效减轻遗忘。

二、论文基本信息

  • 论文标题:Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

  • 作者:Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen

  • 单位:Princeton Language and Intelligence, Princeton University

  • 论文链接:https://arxiv.org/pdf/2510.18874

三、研究背景与相关工作

语言模型的后训练主要包括SFT和RL两类方法。SFT通过最小化模型输出与专家响应之间的交叉熵损失来学习,而RL则通过最大化奖励并配合KL正则项来优化策略。传统观点认为,SFT对应的前向KL(Forward KL)具有模式覆盖(Mode-Covering) 特性,应更利于保留多模态知识;而RL对应的反向KL(Reverse KL)具有模式寻求(Mode-Seeking) 特性,可能因聚焦于少数模式而加剧遗忘。

然而,现有研究缺乏对这两种方法在遗忘行为上的系统比较,尤其是在多模态初始策略的实际场景中。此外,尽管已有工作提出KL正则或优势估计(Advantage Estimation)可能是RL缓解遗忘的关键,但这些假设缺乏充分验证。本文在此基础上,首次系统比较了SFT与RL在多种任务与模型上的遗忘表现,并从策略数据的角度提出了新的解释与改进方法。

原文、这里 👉👉 【大语言模型训练】最新合集整理:大模型后训练新突破!普林斯顿陈丹琦团队:RL 靠On-Policy数据,实现 “少遗忘+高增益” 双优https://mp.weixin.qq.com/s/3bEflCaeoAHZSBDsSrdeag

四、主要贡献与创新

  1. 系统性实验验证:在指令跟随(IFEval)、通用知识(MMLU)、算术推理(Countdown)等任务上,使用Llama、Qwen等不同规模的模型,系统比较SFT与RL的遗忘行为,发现RL在获得相当目标任务增益(Gain)的同时,非目标任务性能下降(Drop)显著更低。

  2. 理论建模与直觉构建:将最优策略建模为双高斯混合分布,揭示在多模态初始策略下,反向KL(对应RL)因仅调整部分模式而保留旧知识,而前向KL(对应SFT)因全局覆盖而引发遗忘。

  3. 关键因素识别:通过消融实验验证RL缓解遗忘的主要原因是其使用策略数据,而非KL正则或优势估计。进一步提出使用近似策略数据(如每轮迭代初生成的数据)可在SFT中有效减轻遗忘,提升训练效率。

五、研究方法与原理

本文核心思路是:通过理论建模与实验验证,揭示RL因使用策略数据而在多模态任务中缓解遗忘的机制。

理论建模

将最优策略  建模为双模态高斯混合:

训练策略  在单模态与多模态设定下分别建模为单高斯或双高斯混合。通过最小化前向KL或反向KL,观察其对旧模式(对应旧任务)的保留能力。

算法对应
  • SFT 对应最小化前向KL:

  • RL 对应最小化反向KL:

其中  由初始策略与奖励函数共同定义。

六、实验设计与结果分析

实验设置
  • 数据集:IFEval(13k训练/1.9k测试)、MMLU(12k/2k)、Countdown(10k/1k),另包含MATH、WildJailbreak、WildGuardTest等非目标任务。

  • 模型:Llama-3.2-1B/8B-Instruct、Qwen-2.5-1.5B/7B-Instruct。

  • 基线方法:SFT(使用专家响应)、Self-SFT(使用初始模型响应)、RL(使用GRPO算法)。

  • 评估指标:目标任务增益 、非目标任务下降 。

关键结果
  1. RL遗忘显著少于SFT:在所有任务与模型上,RL在获得可比目标任务增益的同时,非任务下降平均低于SFT约20–30%。

  1. 学习率对SFT遗忘影响显著:高学习率()下SFT获得高增益但伴随严重遗忘;低学习率()虽减轻遗忘但学习效率低下。

  2. KL正则与优势估计非主要因素:去除KL正则()或使用REINFORCE替代GRPO,RL仍保持低遗忘,说明策略数据是关键。

  1. 近似策略数据有效:Iterative-SFT(每轮初生成数据)在SFT中显著减轻遗忘,且性能接近RL。

局限性
  • 实验规模限于8B以下模型,未验证极大规模模型下的遗忘行为。

  • 理论分析基于简化高斯假设,未覆盖更复杂的真实语言分布。

七、论文结论与评价

本文通过系统实验与理论分析,明确了RL在后训练中因使用策略数据而缓解遗忘的机制,并提出使用近似策略数据作为SFT的高效改进方向。这一发现对语言模型的持续学习与安全部署具有重要启示:策略数据不仅能提升新任务性能,还能有效保护已有能力,为未来构建更稳定、可持续的学习系统提供了理论基础与实践路径。

然而,本文未充分考虑目标任务与旧任务分布差异极大时的遗忘情况(如附录中图8所示),也未深入探讨多任务交替训练中的累积遗忘问题。未来研究可进一步拓展至更大规模模型、更复杂任务序列,并探索策略数据与其他防遗忘技术(如回放缓冲区、参数隔离)的结合使用。

往期推荐 

强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!

OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!

ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!

NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值