Learn Your Reference Model for Real Good Alignment

828 篇文章

已下架不支持订阅

本文提出TR-DPO,一种对抗DPO的改进方法,用于优化语言模型的对齐。TR-DPO通过更新参考策略在训练期间增强对齐效果,提升模型在一致性、正确性、细节、有用性和无害性等多方面表现,实验显示在GPT-4上性能提升19%。未来将扩展研究,探索更多应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Learn Your Reference Model for Real Good Alignment》的翻译。

学习你的偏好模型以实现真正的良好对齐

摘要

对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。我们提出了一种称为信任区域DPO(TR-DPO)的新方法,该方法在训练期间更新参考策略。通过这样一个简单的更新,我们在人类HH和TLDR数据集上证明了TR-DPO对抗DPO的有效性。通过GPT-4的自动评估,我们发现TR-DPO的性能优于DPO高达19%。我们提出的新的对齐方法使我们能够同时提高多个参数的模型质量,如一致性、正确性、细节水平、有用性和无害性。

1 引言

2 相关工作

3 方法

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值