文章核心总结与翻译
一、主要内容
本文聚焦于语言模型强化学习微调(如基于人类反馈的RLHF)中存在的核心问题——奖励优化与性能漂移的权衡(即奖励黑客、对齐税、语言漂移等现象),提出了一种无需修改训练目标的高效算法Elastic Reset,并通过多尺度实验验证其有效性。
1. 核心问题
- RLHF在优化奖励模型时,会导致模型偏离预训练分布,出现语言语法/语义失真、通用基准性能下降等漂移问题;
- 传统解决方案(如KL散度惩罚、多任务学习、迭代蒸馏)存在计算成本高、训练速度慢或权衡效果差的缺陷。
2. 算法设计
Elastic Reset的核心逻辑是通过周期性重置平衡奖励与漂移,具体步骤:
- 维护在线模型(θ)的指数移动平均(EMA)模型(θ̄),EMA更新公式为θ̄ ← (1-η)θ + ηθ̄(η为衰减超参数);
- 每N步执行两次重置:先将在线模型重置为EMA模型(θ ← θ̄),再将EMA模型重置为初始预训练模型(θ̄ ← θ₀);
- 可兼容REINFORCE、PPO等主流RL算法,无需修改原始训练目标。
3. 实验验证
在三个不同尺度任务上验证,均实现SOTA性能:
- 小规模: pivot-translation基准(6层Transformer

订阅专栏 解锁全文
648

被折叠的 条评论
为什么被折叠?



