SuperHF: Supervised Iterative Learning from Human Feedback

最新推荐文章于 2025-11-26 15:49:07 发布

UnknownBody

最新推荐文章于 2025-11-26 15:49:07 发布

阅读量256

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能语言模型

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134081648

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了一种名为SuperHF的新方法，旨在结合监督微调（SFT）和基于人类反馈的强化学习（RLHF）的优势。SuperHF通过使用简单的监督损失和KL发散先验，避免了RLHF中的不稳定性和奖励黑客攻击问题，实现了与人类偏好一致的大规模语言模型。实验表明，SuperHF在训练目标上超越了RLHF，并在下游任务中表现出色，同时简化了语言模型的对齐过程，提高了其安全性。

本文是LLM系列文章，针对《SuperHF: Supervised Iterative Learning from Human Feedback》的翻译。

摘要

人工智能领域越来越关注大规模语言模型，这些模型虽然表现出非凡的能力，但在安全性、与人类价值观的一致性以及训练过程中的稳定性方面往往存在挑战。在这里，我们重点介绍了两种常用的方法，即监督微调（SFT）和来自人类反馈的强化学习（RLHF）。SFT简单而稳健，为许多开源模型提供了动力，而RLHF是一种更复杂的方法，用于ChatGPT等顶级模型，但也存在不稳定性和易受奖励黑客攻击的问题。我们提出了一种新的方法，即从人类反馈中监督迭代学习（SuperHF），它试图利用这两种方法的优势。我们的假设有两个方面：我们假设RLHF中使用的奖励模型对于有效的数据使用和模型泛化至关重要，并且RLHF中可能没有必要使用近端策略优化（PPO），这可能会导致不稳定问题。SuperHF用简单的监督损失和Kullback-Leibler（KL）发散先验代替了PPO。它通过在在线学习机制中重复采样一批模型输出并通过奖励模型进行过滤来创建自己的训练数据。然后，我们将奖励优化问题分解为三个部分：稳健地优化训练奖励本身，防止奖励黑客攻击——或利用一种新的METEOR相似性度量来衡量可能降低模型性能的奖励模型，以及在下游评估中保持良好的性能。我们的实验结果表明，SuperHF在训练目标上超过了基于PPO的RLHF，轻松而有利地权衡了高回报和低回报的黑客攻击，改进了下游校准，并在我们基于GPT-4的定性评估方案上执行了相同的操作，同时实现起来明显更简单，突出了SuperHF作为一种具有竞争力的语言模型对齐技术的潜力。