Comparing Bad Apples to Good Oranges

本文是LLM系列文章,针对《Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization》的翻译。

将坏苹果与好橙子进行比较:通过联合偏好优化对齐大型语言模型

摘要

对齐大型语言模型(LLM)的一种常见技术依赖于通过比较以固定上下文为条件的多生成来获取人类偏好。这仅在将生成置于相同的上下文中时利用成对比较。然而,这种有条件的排名往往无法捕捉到人类偏好的复杂和多维方面。在这项工作中,我们重新审视了偏好获取的传统范式,并提出了一个新的轴,该轴基于在指令-反应对上共同激发偏好。虽然先前的偏好优化是为条件排名协议(如DPO)设计的,但我们提出的偏好获取协议引入了DOVE,这是一种新的偏好优化目标,它使所选指令响应对的联合概率高于被拒绝的指令响应对。有趣的是,我们发现使用DOVE的联合指令响应偏好数据训练的LLM在摘要和开放式对话数据集上的胜率分别比使用DPO训练的LLP高出5.2%和3.3%。我们的研究结果表明,通过利用更广泛的人类偏好启发,对指令和反应对的联合偏好可以显著增强LLM的一致性。数据和代码可在https://github.com/Hritikbansal/dove.

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值