本文是LLM系列文章,针对《CONTRASTIVE PREFERENCE LEARNING: LEARNING FROM HUMAN FEEDBACK WITHOUT RL》的翻译。
摘要
从人类反馈中强化学习(RLHF)已经成为一种流行的将模型与人类意图相一致的范式。RLHF算法通常分为两个阶段:第一,使用人类偏好来学习奖励函数,第二,通过强化学习(RL)优化所学习的奖励来调整模型。这种范式假设人类的偏好是根据奖励来分配的,但最近的研究表明,在用户的最优策略下,他们会遵循后悔。因此,从反馈中学习奖励函数不仅是基于对人类偏好的有缺陷的假设,而且还会导致难以处理的优化挑战,这些挑战源于RL阶段的策略梯度或自举。由于这些优化挑战,当代RLHF方法将自己限制在上下文bandit设置(例如,在大型语言模型中)或限制观察维度(例如,基于状态的机器人)。我们通过引入一系列新的算法来克服这些限制,这些算法使用基于后悔的人类偏好模型来优化人类反馈的行为。利用最大熵原理,我们推导出了对比偏好学习(CPL),这是一种在不学习奖励函数的情况下从偏好中学习最优策略的算法,避免了对RL的需求。CPL是完全脱离策略的,只使用一个简单的对比目标,并且可以应用于任意的MDP。这使得CPL能够优雅地扩展到高维和顺序RLHF问题,同时比现有方法更简单。
1 引言
2 前言
3 对比偏好学习
4 实验
5 相关工作
6 讨论
在这项工作中,我们介绍了CPL,这是一种使用后悔偏好模型的RLHF的新框架。理论上,我们证明了CPL总是学习一致的优势函数,并收敛于专家奖励函数的最优策
本文提出了一种名为对比偏好学习(CPL)的新算法,该算法无需强化学习(RL)即可从人类反馈中学习最优策略。CPL解决了RLHF方法在高维和顺序问题上的优化挑战,适用于任意MDP,并在实验中表现出优于RL基线的效果。然而,CPL也面临一些局限性,如需预先知道评分人的贴现因子和对大量GPU内存的需求。
已下架不支持订阅
397

被折叠的 条评论
为什么被折叠?



