CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量348

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能语言模型

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134314512

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出了一种名为对比偏好学习（CPL）的新算法，该算法无需强化学习（RL）即可从人类反馈中学习最优策略。CPL解决了RLHF方法在高维和顺序问题上的优化挑战，适用于任意MDP，并在实验中表现出优于RL基线的效果。然而，CPL也面临一些局限性，如需预先知道评分人的贴现因子和对大量GPU内存的需求。

本文是LLM系列文章，针对《CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL》的翻译。

摘要

从人类反馈中强化学习（RLHF）已经成为一种流行的将模型与人类意图相一致的范式。RLHF算法通常分为两个阶段：第一，使用人类偏好来学习奖励函数，第二，通过强化学习（RL）优化所学习的奖励来调整模型。这种范式假设人类的偏好是根据奖励来分配的，但最近的研究表明，在用户的最优策略下，他们会遵循后悔。因此，从反馈中学习奖励函数不仅是基于对人类偏好的有缺陷的假设，而且还会导致难以处理的优化挑战，这些挑战源于RL阶段的策略梯度或自举。由于这些优化挑战，当代RLHF方法将自己限制在上下文bandit设置（例如，在大型语言模型中）或限制观察维度（例如，基于状态的机器人）。我们通过引入一系列新的算法来克服这些限制，这些算法使用基于后悔的人类偏好模型来优化人类反馈的行为。利用最大熵原理，我们推导出了对比偏好学习（CPL），这是一种在不学习奖励函数的情况下从偏好中学习最优策略的算法，避免了对RL的需求。CPL是完全脱离策略的，只使用一个简单的对比目标，并且可以应用于任意的MDP。这使得CPL能够优雅地扩展到高维和顺序RLHF问题，同时比现有方法更简单。