文章核心总结与翻译
一、主要内容
文章聚焦大语言模型(LLM)对齐中的偏好数据质量问题,提出数据质量具有模型依赖性(对某模型有益的数据可能对另一模型有害)。通过改进传统影响函数(IF)得到截断影响函数(TIF),揭示中等IF值的偏好数据对对齐最有价值。为解决TIF计算成本高的问题,设计了两个轻量评分函数(LossDiff和IRM),并融合为LossDiff-IRM选择规则。实验表明,该规则仅使用50%-64%的数据,就能在多种LLM家族和基准测试中超越全量数据训练效果。
二、创新点
- 提出截断影响函数(TIF):修正传统IF的过拟合问题,明确中等IF值数据是优质偏好数据,验证数据质量的模型依赖性。
- 设计轻量近似代理:提出LossDiff(损失差异) 和IRM(隐式奖励边际) 两个评分函数,无需梯度计算仅通过前向传播,与TIF高度正相关。
- 融合选择规则LossDiff-IRM:抵消单个评分函数的误差,在保证计算效率的同时,逼近TIF的选择效果,实现“少而精”的数据选择。
- 跨场景验证通用性:在DPO/SLiC两种对齐方法、多种LLM(Llama/Qwen/Pythia)及ID/OOD基准中验证,均展现出性能优势。

订阅专栏 解锁全文
1733

被折叠的 条评论
为什么被折叠?



