A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

好好好_

已于 2024-10-30 15:06:55 修改

阅读量1.1k

点赞数 23

文章标签：论文笔记语言模型

于 2024-10-29 17:27:29 首次发布

本文链接：https://blog.youkuaiyun.com/qq_46094659/article/details/143331527

版权

1. Abstract：

大型语言模型（LLM）在生成人类查询的事实上和连贯回答方面的能力，以及训练数据质量参差不齐导致的挑战。论文提出了对LLM进行对齐的不同方法，以增强其与人类期望的一致性，并指出之前缺乏对这些方法的全面分类和详细解释。本工作旨在通过分类和详细解释每种对齐方法，帮助读者全面了解该领域的当前状态。

2. 分类大纲

提供了LLM对齐的关键元素的简洁介绍，包括四个主要方向：奖励模型、反馈、强化学习（RL）策略和优化。每个方向进一步细分为子主题，并提供了详细的讨论
在这里插入图片描述

3. Reward model

显式奖励模型（Explicit Reward Model） vs. 隐式奖励模型（Implicit Reward Model）

显式奖励模型：通过在预训练的LLM上微调，基于提示和成对的响应（一个期望的响应和一个不期望的响应）来派生出明确奖励模型。这个模型随后用于RL设置中以对齐LLM策略。
隐式奖励模型：不经过训练显式奖励模型的过程。例如，在DPO（Direct Preference Optimization）中，建立了最优奖励模型和RL中最优策略之间的映射，允许在不直接派生奖励模型的情况下对齐LLM。

逐点奖励模型（Pointwise Reward Model） vs. 偏好模型（Preference Model）

逐点奖励模型：返回一个奖励分数，即给定提示x和响应y的r(x, y)。
偏好模型：直接模型P(yw > yl|x) = σ(r(x, yw) − r(x, yl))，基于Bradley–Terry (BT)模型，但这种方法不能直接获得成对偏好，并且不能容纳人类标记的不一致性。

响应级奖励（Response-Level Reward） vs. 令牌级奖励（Token-Level Reward）

响应级奖励：在原始数据集中，以三元组形式收集的数据，即{x, yw, yl}，奖励是针对整个响应给出的。
**令牌级奖励：**在马尔可夫决策过程（MDP）中，每个动作后都会给出奖励，导致状态的改变。为了在每个动作后实现对齐，引入了令牌级奖励模型。

负偏好优化（Negative Preference Optimization）

在RLHF数据集中，人类标记了期望的和不期望的响应。随着LLM能力的提高，一些研究人员提出LLM可以生成比人类标记者更高质量的期望响应。因此，他们选择只使用数据集中的提示和不期望的响应，使用LLM生成期望的响应。

这些类别涵盖了奖励模型的不同方面，包括如何派生奖励、奖励的粒度（响应级或令牌级），以及如何处理正负反馈。通过这些不同的方法，研究人员可以更有效地对齐LLM，使其生成的响应符合人类的期望和价值观。

4. Feedback

偏好反馈（Preference Feedback） vs. 二进制反馈（Binary Feedback）

偏好反馈：涉及到比较和选择多个响应中的偏好，例如在RLHF中收集的“更好”或“更差”的反馈。
二进制反馈：是一种更简单的反馈形式，通常涉及正面（如“点赞”）或负面（如“不点赞”）的直接评价。

成对反馈（Pairwise Feedback） vs. 列表反馈（Listwise Feedback）

成对反馈：涉及到将两个响应进行比较，以确定哪一个更受偏好。
列表反馈：涉及到对一组响应进行排名或评分，这可以加快标签过程，因为可以一次性为一个提示收集多个响应。

人类反馈（Human Feedback） vs. AI反馈（AI Feedback）

人类反馈：直接从人类评估者那里获得的反馈，他们被要求对多个响应进行比较和评价。
AI反馈：随着LLM的发展，现在可以使用AI系统来收集对齐LLM的反馈，这可以减少人类评估的劳动强度和成本。
这些反馈类别提供了不同的方式来收集和利用评价信息，以改进LLM的性能。偏好反馈和成对反馈更侧重于比较和选择，而二进制反馈和列表反馈则提供了更简单或更批量的评价方式。人类反馈和AI反馈则涉及到反馈来源的不同，人类反馈通常更可靠但成本更高，而AI反馈则可能更便宜但可能存在准确性问题。通过这些不同的反馈方法，研究人员可以更灵活地调整和优化LLM，以更好地满足特定的应用需求和性能目标。

5. RL策略

基于参考的RL（Reference-Based RL） vs. 无参考的RL（Reference-Free RL）

基于参考的RL：在RLHF中，目标是最小化当前策略（πθ）和参考策略（πref）之间的距离。这种方法侧重于保持与初始SFT模型的一致性。
无参考的RL：一些方法提出了避免使用参考策略的方法，以减少内存负担和计算复杂性。例如，SimPO提出了一种不需要参考策略的目标函数。

长度控制RL（Length-Control RL）

当使用LLM作为评估器时，观察到它们倾向于偏好冗长的回答。为了解决这个问题，一些工作如R-DPO和SimPO在RL目标中加入了对输出长度的考虑。

RL中的不同散度（Different Divergences in RL）

在RLHF中，通常使用反向Kullback-Leibler (KL) 散度来衡量当前策略和参考策略之间的距离。然而，KL散度可能导致回答的多样性降低。因此，研究者探索了不同的散度度量，如Jensen-Shannon散度。

在线策略RL（On-policy RL） vs. 离线策略RL（Off-policy RL）

在线策略RL：在训练过程中，使用最新版本的策略来生成响应。这种方法可以实时采样响应，但可能需要更多的计算资源。
离线策略RL：依赖于之前生成的响应，这些响应可能与当前策略不一致，从而节省了在训练过程中生成新响应的时间。

6. 优化

- 迭代/在线偏好优化（Iterative/Online Preference Optimization）

当使用收集的数据集进行对齐时，这个过程被称为非迭代/离线偏好优化。而迭代/在线偏好优化在人类标记新数据或LLM同时生成和评估响应时变得可行。

- 合并SFT和对齐（Merging SFT and Alignment）

在RLHF中，SFT和对齐通常是顺序分离应用的，这可能导致灾难性遗忘。为了解决这个问题，一些研究如ORPO提出了将SFT与对齐集成到一个过程中，以简化微调。

7. 具体方法

RLHF： 在这里插入图片描述

SliC-HF:

RSO

DPO

DPOP

$\beta$ -DPO:

IPO:

GPO:

Token-level DPO：

TDPO

**Iterative/online DPO: **

KTO:
DRO:

ORPO (merge DFT and alignment):
PAFT:

R-DPO:

SimPO:

RLOO:
在这里插入图片描述
LiPO:

RRHF:

PRO:
在这里插入图片描述
NN (Negating negatives:)

CPO:

Nash Learning 是一种在大型语言模型（LLM）对齐中使用的策略，它基于博弈论中的Nash均衡概念。Nash Learning 的核心思想是直接对模型的偏好进行建模，而不是依赖于点式奖励或成对比较。这种方法试图通过考虑所有可能的模型策略来找到最优的策略，从而实现更好的对齐。以下是论文中提到的几种Nash Learning 方法：

Nash Learning from Human Feedback
在这里插入图片描述

这种方法使用Nash均衡来处理人类反馈，而不是依赖于点式奖励模型。它通过直接建模两个策略之间的偏好概率来实现，从而避免了使用Bradley-Terry模型和点式奖励的需要。
Self-Play Preference Learning (SPPO)
在这里插入图片描述

SPPO将RLHF重新解释为一个两玩家零和游戏，消除了对奖励模型的需求，使过程对噪声、非传递性和非马尔可夫偏好更加鲁棒。通过利用游戏的对称性，单个代理可以采样多个轨迹，然后使用胜率作为奖励来评估这些轨迹。
Direct Nash Optimization (DNO)

DNO采用了批量的在线策略算法，通过单时间尺度更新来简化问题，从而提高采样效率。这种方法试图通过回归内部奖励函数来简化Nash均衡的寻找过程。
在这里插入图片描述

在这里插入图片描述

Future

通用任务用于对齐评估：开发和结合特定的任务，创建一个统一的排行榜，用于评估和比较不同对齐方法的性能。
将隐式奖励模型、列表偏好和Nash学习应用于更大规模的LLM：将这些方法扩展到更大的模型上，如GPT-4和Claude-3，以了解它们与RLHF/PPO相比的有效性。
在二进制反馈上进行实验：研究如何利用更容易收集的二进制反馈数据来对齐LLM，并探索如何有效过滤噪声数据。
使用AI反馈进行实验：使用LLM生成的帮助性反馈来进一步对齐LLM，使模型能够自我改进。
加速Nash学习：研究如何减少Nash学习方法所需的迭代次数，以加快对齐过程。
确定迭代/在线学习的终止点：研究如何确定合理的迭代终止点，以避免过拟合并保持模型在特定任务上的性能。
简化SFT和对齐的结合：探索如何有效地结合SFT和对齐，以实现高性能的同时保持训练过程的效率。
探索不同的散度度量：研究在对齐过程中使用不同的散度度量（如Jensen-Shannon散度）对模型性能的影响。
处理分布外数据：开发方法来提高LLM在处理分布外数据时的鲁棒性和性能。
提高对齐方法的可解释性：研究如何提高对齐方法的可解释性，以便更好地理解模型的决策过程。
跨领域和跨语言的对齐：探索对齐方法在不同领域和语言中的应用，以及如何适应不同的文化和语境