本文是LLM系列文章,针对《Learn Your Reference Model for Real Good Alignment》的翻译。
摘要
对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。我们提出了一种称为信任区域DPO(TR-DPO)的新方法,该方法在训练期间更新参考策略。通过这样一个简单的更新,我们在人类HH和TLDR数据集上证明了TR-DPO对抗DPO的有效性。通过GPT-4的自动评估,我们发现TR-DPO的性能优于DPO高达19%。我们提出的新的对齐方法使我们能够同时提高多个参数的模型质量,如一致性、正确性、细节水平、有用性和无害性。