Transforming and Combining Rewards for Aligning Large Language Models

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量228

点赞数 2

CC 4.0 BY-SA版权

分类专栏： LLM Alignment 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137194709

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Alignment

49 篇文章

订阅专栏

本文探讨了如何通过转换和组合奖励来更好地对齐大型语言模型，以使其与人类偏好一致。研究发现，对从Bradley Terry偏好模型中学习的奖励进行特定转换，可以减轻拟合不足和奖励黑客攻击。此外，通过奖励的逻辑聚合，实现了多个属性的一致性。实验结果显示，与未经转换的基线方法相比，这种方法显著提高了模型的表现。

本文是LLM系列文章，针对《Transforming and Combining Rewards for Aligning Large Language Models》的翻译。

摘要

将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型，然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先，奖励模型的任何单调变换都保持了偏好排序；有比其他人“更好”的选择吗？其次，我们经常希望将语言模型与多个属性对齐：我们应该如何组合多个奖励模型？使用对齐过程的概率解释，我们确定了从Bradley Terry偏好模型中学习到的奖励（常见情况）的自然转换选择。这个派生变换有两个重要性质。首先，它强调改善表现不佳的产出，而不是已经取得好成绩的产出。这缓解了拟合不足（某些提示没有得到改进）和奖励黑客攻击（模型学会利用奖励模型的错误指定）。其次，它通过将总和与逻辑连接起来，实现了奖励的原则性聚合：转换后的奖励之和对应于输出在所有测量属性中“良好”的概率，在某种意义上我们认为这是精确的。使用RLHF将语言模型调整为既有用又无害的实验表明，与基线（未转换）方法相比，有了实质性的改进。