本文是LLM系列文章,针对《Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization》的翻译。
将坏苹果与好橙子进行比较:通过联合偏好优化对齐大型语言模型
摘要
对齐大型语言模型(LLM)的一种常见技术依赖于通过比较以固定上下文为条件的多生成来获取人类偏好。这仅在将生成置于相同的上下文中时利用成对比较。然而,这种有条件的排名往往无法捕捉到人类偏好的复杂和多维方面。在这项工作中,我们重新审视了偏好获取的传统范式,并提出了一个新的轴,该轴基于在指令-反应对上共同激发偏好。虽然先前的偏好优化是为条件排名协议(如DPO)设计的,但我们提出的偏好获取协议引入了DOVE,这是一种新的偏好优化目标,它使所选指令响应对的联合概率高于被拒绝的指令响应对。有趣的是,我们发现使用DOVE的联合指令响应偏好数据训练的LLM在摘要和开放式对话数据集上的胜率分别比使用DPO训练的LLP高出5.2%和3.3%。我们的研究结果表明,通过利用更广泛的人类偏好启发,对指令和反应对的联合偏好可以显著增强LLM的一致性。数据和代码可在https://github.com/Hritikbansal/dove.