文章核心是首次系统性解决LLM强化学习(RL)后训练阶段的数据污染检测问题,提出了基于熵的Self-Critique方法和RL-MIA基准数据集,填补了现有检测方法仅适用于预训练和监督微调阶段的空白。
一、文章主要内容总结
- 研究背景与问题
- 数据污染会导致LLM性能评估失真,但现有检测方法仅覆盖预训练和监督微调(SFT)阶段,完全忽略了对LLM推理能力提升至关重要的RL后训练阶段。
- RL后训练以“奖励最大化”为目标,与预训练、SFT的“ likelihood最大化”不同,传统基于likelihood的检测信号(如低困惑度)失效,导致该阶段污染检测成为盲区。
- 核心方法:Self-Critique
- 核心原理:RL后训练会导致模型“策略坍缩”,即收敛到狭窄的推理路径,表现为输出熵分布稀疏。受污染样本因训练时被奖励强化,策略坍缩更严重,难以生成替代推理路径。
- 检测流程:
- 让模型对同一问题生成初始响应,计算其token级熵序列E1;
- 让模型基于初始响应生成“替代推理路径”的自我批判响应,计算熵序列E2;
- 用长度惩罚余弦相似度计算E1与E2的相似度,相似度越高则样本越可能被污染。
- 基准数据集:RL-MIA

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



