本文是LLM系列文章,针对《Transforming and Combining Rewards for Aligning Large Language Models》的翻译。
摘要
将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先,奖励模型的任何单调变换都保持了偏好排序;有比其他人“更好”的选择吗?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?使用对齐过程的概率解释,我们确定了从Bradley Terry偏好模型中学习到的奖励(常见情况)的自然转换选择。这个派生变换有两个重要性质。首先,它强调改善表现不佳的产出,而不是已经取得好成绩的产出。这缓解了拟合不足(某些提示没有得到改进)和奖励黑客攻击(模型学会利用奖励模型的错误指定)。其次,它通过将总和与逻辑连接起来,实现了奖励的原则性聚合:转换后的奖励之和对应于输出在所有测量属性中“良好”的概率,在某种意义上我们认为这是精确的。使用RLHF将语言模型调整为既有用又无害的实验表明,与基线(未转换)方法相比,有了实质性的改进。
1 引言
2 前言
3 奖励转换
4 奖励聚合
5 实验
6 讨论与相关工作
在减少RLHF管道中的奖励黑客攻击方面,有越来越多的工作。技术包括奖励模型平均形式、约束优化形式和奖励模型正则化形式、迭代人类偏好收集形式或数据偏差缓解形式。这些方法是对这里提出的转换技术的补充,可以组合使用。
已经提出了一些将语言模型与多个目标相
改进奖励模型:大型语言模型对齐的转换与组合策略

本文探讨了如何通过转换和组合奖励来更好地对齐大型语言模型,以使其与人类偏好一致。研究发现,对从Bradley Terry偏好模型中学习的奖励进行特定转换,可以减轻拟合不足和奖励黑客攻击。此外,通过奖励的逻辑聚合,实现了多个属性的一致性。实验结果显示,与未经转换的基线方法相比,这种方法显著提高了模型的表现。
已下架不支持订阅
1031

被折叠的 条评论
为什么被折叠?



