Transforming and Combining Rewards for Aligning Large Language Models

828 篇文章

已下架不支持订阅

本文探讨了如何通过转换和组合奖励来更好地对齐大型语言模型,以使其与人类偏好一致。研究发现,对从Bradley Terry偏好模型中学习的奖励进行特定转换,可以减轻拟合不足和奖励黑客攻击。此外,通过奖励的逻辑聚合,实现了多个属性的一致性。实验结果显示,与未经转换的基线方法相比,这种方法显著提高了模型的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Transforming and Combining Rewards for Aligning Large Language Models》的翻译。

调整大型语言模型的转换和组合奖励

摘要

将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先,奖励模型的任何单调变换都保持了偏好排序;有比其他人“更好”的选择吗?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?使用对齐过程的概率解释,我们确定了从Bradley Terry偏好模型中学习到的奖励(常见情况)的自然转换选择。这个派生变换有两个重要性质。首先,它强调改善表现不佳的产出,而不是已经取得好成绩的产出。这缓解了拟合不足(某些提示没有得到改进)和奖励黑客攻击(模型学会利用奖励模型的错误指定)。其次,它通过将总和与逻辑连接起来,实现了奖励的原则性聚合:转换后的奖励之和对应于输出在所有测量属性中“良好”的概率,在某种意义上我们认为这是精确的。使用RLHF将语言模型调整为既有用又无害的实验表明,与基线(未转换)方法相比,有了实质性的改进。

1 引言

2

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值