本文是LLM系列文章,针对《Learn Your Reference Model for Real Good Alignment》的翻译。
摘要
对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。我们提出了一种称为信任区域DPO(TR-DPO)的新方法,该方法在训练期间更新参考策略。通过这样一个简单的更新,我们在人类HH和TLDR数据集上证明了TR-DPO对抗DPO的有效性。通过GPT-4的自动评估,我们发现TR-DPO的性能优于DPO高达19%。我们提出的新的对齐方法使我们能够同时提高多个参数的模型质量,如一致性、正确性、细节水平、有用性和无害性。
1 引言
2 相关工作
3 方法
4 实验
5 结论和未来工作
本文介绍了TR-DPO,这是对著名的DPO语言模型对齐算法的一种新的修改。TR-DPO因其实施的简单性和在整个训练过程中对参考策略的战略性更新而脱颖而出。“信任区域”这一名称反映了我们方法的基本原则:允许模型在最初的SFT政策之外进行探索,以实现更好的对齐收敛。这种策略的有效性可能源于DPO损失函数梯度行为的细微动态。

本文提出TR-DPO,一种对抗DPO的改进方法,用于优化语言模型的对齐。TR-DPO通过更新参考策略在训练期间增强对齐效果,提升模型在一致性、正确性、细节、有用性和无害性等多方面表现,实验显示在GPT-4上性能提升19%。未来将扩展研究,探索更多应用。
已下架不支持订阅
620

被折叠的 条评论
为什么被折叠?



