大模型后训练新突破！普林斯顿陈丹琦团队：RL 靠On-Policy数据，实现 “少遗忘+高增益” 双优

RL利用On-Policy数据减少遗忘

最新推荐文章于 2025-10-31 14:53:20 发布

原创最新推荐文章于 2025-10-31 14:53:20 发布 · 947 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #模型后训练 #强化学习微调 #灾难性遗忘 #监督微调 #大模型

前沿论文同时被 2 个专栏收录

19 篇文章

订阅专栏

大模型

18 篇文章

订阅专栏

原文👉👉 大模型后训练新突破！普林斯顿陈丹琦团队：RL 靠On-Policy数据，实现 “少遗忘+高增益” 双优论文下载：关注【LLM炼丹炉】回复【大模型顶会】获取领取 ICML｜CVPR｜AAAI｜ICLR 2025 大模型顶会论文合集

关键词：灾难性遗忘（Catastrophic Forgetting）、语言模型后训练（LM Post-Training）、策略数据学习（On-Policy Data Learning）、强化学习微调（RL Fine-Tuning）、KL散度优化（KL Divergence Optimization）、模式寻求行为（Mode-Seeking Behavior）、监督微调遗忘（SFT Forgetting）、多模态策略分布（Multi-Modal Policy Distribution）

一、导读

语言模型（Language Model, LM）在进行下游任务的后训练（Post-Training）时，常常面临灾难性遗忘（Catastrophic Forgetting）的问题，即模型在学习新任务的同时丢失了原有的知识能力。这种现象严重制约了模型在实际应用中的持续学习与适应能力。尽管监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）是两种常用的后训练方法，但它们对遗忘的影响尚未得到系统比较与深入理解。

为解决上述问题，本文提出从策略数据（On-Policy Data） 的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验，论文发现RL因其使用当前策略生成的数据进行训练，相较于SFT表现出更少的遗忘，同时达到相当甚至更高的目标任务性能，并提出使用近似策略数据可在保证效率的同时有效减轻遗忘。

二、论文基本信息

论文标题：Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
作者：Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen
单位：Princeton Language and Intelligence, Princeton University
论文链接：https://arxiv.org/pdf/2510.18874

三、研究背景与相关工作

语言模型的后训练主要包括SFT和RL两类方法。SFT通过最小化模型输出与专家响应之间的交叉熵损失来学习，而RL则通过最大化奖励并配合KL正则项来优化策略。传统观点认为，SFT对应的前向KL（Forward KL）具有模式覆盖（Mode-Covering） 特性，应更利于保留多模态知识；而RL对应的反向KL（Reverse KL）具有模式寻求（Mode-Seeking） 特性，可能因聚焦于少数模式而加剧遗忘。

然而，现有研究缺乏对这两种方法在遗忘行为上的系统比较，尤其是在多模态初始策略的实际场景中。此外，尽管已有工作提出KL正则或优势估计（Advantage Estimation）可能是RL缓解遗忘的关键，但这些假设缺乏充分验证。本文在此基础上，首次系统比较了SFT与RL在多种任务与模型上的遗忘表现，并从策略数据的角度提出了新的解释与改进方法。

原文、这里 👉👉 【大语言模型训练】最新合集整理：大模型后训练新突破！普林斯顿陈丹琦团队：RL 靠On-Policy数据，实现 “少遗忘+高增益” 双优https://mp.weixin.qq.com/s/3bEflCaeoAHZSBDsSrdeag

四、主要贡献与创新

系统性实验验证：在指令跟随（IFEval）、通用知识（MMLU）、算术推理（Countdown）等任务上，使用Llama、Qwen等不同规模的模型，系统比较SFT与RL的遗忘行为，发现RL在获得相当目标任务增益（Gain）的同时，非目标任务性能下降（Drop）显著更低。
理论建模与直觉构建：将最优策略建模为双高斯混合分布，揭示在多模态初始策略下，反向KL（对应RL）因仅调整部分模式而保留旧知识，而前向KL（对应SFT）因全局覆盖而引发遗忘。
关键因素识别：通过消融实验验证RL缓解遗忘的主要原因是其使用策略数据，而非KL正则或优势估计。进一步提出使用近似策略数据（如每轮迭代初生成的数据）可在SFT中有效减轻遗忘，提升训练效率。

五、研究方法与原理

本文核心思路是：通过理论建模与实验验证，揭示RL因使用策略数据而在多模态任务中缓解遗忘的机制。

理论建模

将最优策略建模为双模态高斯混合：

训练策略在单模态与多模态设定下分别建模为单高斯或双高斯混合。通过最小化前向KL或反向KL，观察其对旧模式（对应旧任务）的保留能力。

算法对应

SFT 对应最小化前向KL：

RL 对应最小化反向KL：

其中由初始策略与奖励函数共同定义。

六、实验设计与结果分析

实验设置

数据集：IFEval（13k训练/1.9k测试）、MMLU（12k/2k）、Countdown（10k/1k），另包含MATH、WildJailbreak、WildGuardTest等非目标任务。
模型：Llama-3.2-1B/8B-Instruct、Qwen-2.5-1.5B/7B-Instruct。
基线方法：SFT（使用专家响应）、Self-SFT（使用初始模型响应）、RL（使用GRPO算法）。
评估指标：目标任务增益、非目标任务下降。