本文是LLM系列文章,针对《Transforming and Combining Rewards for Aligning Large Language Models》的翻译。
摘要
将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先,奖励模型的任何单调变换都保持了偏好排序;有比其他人“更好”的选择吗?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?使用对齐过程的概率解释,我们确定了从Bradley Terry偏好模型中学习到的奖励(常见情况)的自然转换选择。这个派生变换有两个重要性质。首先,它强调改善表现不佳的产出,而不是已经取得好成绩的产出。这缓解了拟合不足(某些提示没有得到改进)和奖励黑客攻击(模型学会利用奖励模型的错误指定)。其次,它通过将总和与逻辑连接起来,实现了奖励的原则性聚合:转换后的奖励之和对应于输出在所有测量属性中“良好”的概率,在某种意义上我们认为这是精确的。使用RLHF将语言模型调整为既有用又无害的实验表明,与基线(未转换)方法相比,有了实质性的改进。