直接偏好优化算法（Direct Preference Optimization，DPO）

SsR.XX

已于 2023-11-24 14:27:46 修改

阅读量6.6k

点赞数 8

分类专栏：论文笔记文章标签：人工智能

于 2023-11-21 11:03:06 首次发布

本文链接：https://blog.youkuaiyun.com/chacha_/article/details/134527000

版权

论文笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种新的算法DPO，它跳过奖励模型环节，通过直接利用人类偏好数据来微调语言模型，相比传统RLHF方法更稳定高效。实验显示DPO在保持一致性的同时提升了响应质量和简化实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DPO

在这里插入图片描述

Paper: https://arxiv.org/abs/2305.18290

Code: https://github.com/eric-mitchell/direct-preference-optimization

基于 人类反馈的强化学习（RLHF） 是一个复杂且不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。

在这里插入图片描述

本文作者提出了 直接偏好优化（DPO） 算法，它稳定、高效且计算量轻，无需拟合奖励模型，也无需在微调期间从LM采样或执行显著的超参数调整。实验表明，DPO 可以微调 LMs，使其与人类偏好保持一致，与现有方法一样或更好。值得注意的是，DPO 在情绪控制的能力上超越了 RLHF，提高了总结和单轮对话的响应质量，同时大大简化了实现和训练。

RLHF pipeline

RLHF通常由3个阶段组成：1）监督微调；2）偏好采样和奖励学习；3）强化学习微调；

SFT 阶段

RLHF 通常从一个通用的预训练 LM 开始，该 LM 在高质量数据集上通过监督学习（最大似然）对感兴趣的下游任务（如对话、指令跟随、总结等）进行微调，以获得模型 $\pi^{SFT}$ 。

Reward 建模阶段

在第二阶段，用 $x$ 提示 $\pi^{SFT}$ 产生一对答案 $(y_1, y_2) \sim \pi^{SFT}(y\mid x)$ 。通过人类标注，得到偏好标签 $y_w \succ y_l \mid x$ ，其中 $y_w$ 表示首选补全， $y_l$ 表示非首选补全。

通过静态数据集 $D=\{x^{i},y^{i}_w,y^{i}_l\}_{i=1}^N$ ，我们可以将奖励模型 $r_{\phi}(x,y)$ 参数化，并通过极大似然估计参数。将问题定义为二元分类，我们有负对数似然损失：
$\mathcal{L}_{R}\left(r_{\phi}, \mathcal{D}\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(r_{\phi}\left(x, y_{w}\right)-r_{\phi}\left(x, y_{l}\right)\right)\right] \tag{1}$
其中 $\sigma$ 是 $s i g m o i d$ 函数。奖励模型 $r_{\phi}(x,y)$ 通常由 $\pi^{SFT}$ 进行初始化，并在最后一个 Transformer 层之后添加线性层，该层为奖励值生成单个标量预测。

RL 微调阶段

在 RL 阶段，我们使用学习到的奖励函数来为语言模型提供反馈。特别是，我们制定了以下优化问题：
$\max _{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(y \mid x)}\left[r_{\phi}(x, y)\right]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta}(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right] \tag{2}$
其中 $\beta$ 是控制 $\pi_{\theta}$ 偏离基本参考策略 $\pi_{ref}$ 的参数。在实践中，语言模型策略 $\pi_{\theta}$ 也被初始化为 $\pi_{ref}$ 。添加的 $\beta$ 约束很重要，因为它可以防止模型偏离奖励模型准确的分布太远，以及保持生成多样性和防止模式崩溃为单个高奖励答案。由于语言生成的离散性，这个目标是不可微的，并且通常使用强化学习进行优化。标准方法是构造奖励函数 $r_{\phi}(x, y) - \beta(\log π_{\theta} (y \mid x) - \log π_{ref}(y \mid x))$ ，并利用 PPO 最大化。

直接偏好优化（DPO）

与之前的 RLHF 方法不同，DPO 绕过了奖励建模步骤，并使用偏好数据直接优化语言模型。

DPO 目标函数

类似于奖励建模方法，即等式 $(1)$ ，我们的策略目标变为：（推导过程详见原论文）
$\mathcal{L}_{\mathrm{DPO}}\left(\pi_{\theta} ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{w} \mid x\right)}-\beta \log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{l} \mid x\right)}\right)\right] \tag{3}$
通过这种方式，我们绕过了显式奖励建模步骤，同时也避免了执行强化学习优化的需要。

逐步分析这个优化目标：首先， $\sigma$ 函数里面的值越大， $L_{DPO}$ 越小。

即最大化 $y_w$ 和 $y_l$ 的奖励函数：
$r_w = \log\frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{w} \mid x\right)} \\ r_l = \log\frac{\pi_{\mathrm{ref}}\left(y_{l} \mid x\right)}{\pi_{\theta}\left(y_{l} \mid x\right)}$
对于人类偏好响应 $y_w$ ，我们期望 $\pi_{\theta}(y_w \mid x)$ 越大越好；

对于人类非偏好响应 $y_l$ ，我们期望 $\pi_{\theta}(y_l\mid x)$ 越小越好。

如果 $\pi_{\mathrm{ref}}\left(y_w \mid x\right)$ 比较小，说明参考模型 $\pi^{\mathrm{ref}}$ 没有正确分类该偏好响应 $y_w$ ，此时 $r_w$ 的奖励系数很大。

如果 $\pi_{\mathrm{ref}}\left(y_l \mid x\right)$ 比较大，说明参考模型 $\pi^{\mathrm{ref}}$ 没有正确分类该非偏好响应 $y_l$ ，此时 $r_l$ 的奖励系数很大。

DPO outline

对于每个提示 $x$ ，从参考策略中采样补全 $(y_1, y_2) \sim \pi_{\mathrm{ref}}(\cdot \mid x)$ ，用人类偏好进行标记以构建离线偏好数据集 $D=\{x^{i},y^{i}_w,y^{i}_l\}_{i=1}^N$ 。
对于给定的 $\pi_{\mathrm{ref}}$ 、 $D$ 和 $\beta$ ，优化语言模型 $\pi_{\theta}$ 以最小化 $L_{\mathrm{DPO}}$ 。

由于偏好数据集使用 $\pi^{SFT}$ 进行采样，因此只要可用，我们就会初始化 $\pi_{\mathrm{ref}} = \pi^{SFT}$ 。在实践中，人们更愿意重用公开的偏好数据集，而不是生成样本并收集人类偏好。这时我们通过最大化首选补全 $x,y_w)$ 的似然来初始化 $\pi_{\mathrm{ref}}$ ，即
$\pi_{\mathrm{ref}} = \arg \mathrm{max}_{\pi}\mathbb{E}_{x,y_w\sim\mathcal{D}}\left[\log\pi\left(y_w\mid x\right) \right]$
该过程有助于缓解真实 $\pi_{\mathrm{ref}}$ 与 DPO 使用的 $\pi_{\mathrm{ref}}$ 之间的分布偏移。

实验

在这里插入图片描述

最大化奖励的同时最小化 KL 散度。可以看到 DPO 在保持较小 KL 散度时，也能够达到最大奖励。而 PPO 随着奖励的增大，KL 散度也在增大。
对不同采样温度的鲁棒性。DPO 在不同的采样温度下全面优于 PPO，同时在 Best of N 基线的最佳温度下也更胜一筹。

结论

基于人类反馈的强化学习（RLHF）是一个复杂且不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。本文作者提出了直接偏好优化（DPO）算法，它稳定、高效且计算量轻，无需拟合奖励模型，也无需在微调期间从LM采样或执行显著的超参数调整。实验表明，DPO 可以微调 LMs，使其与人类偏好保持一致，与现有方法一样或更好。值得注意的是，DPO 在情绪控制的能力上超越了 RLHF，提高了总结和单轮对话的响应质量，同时大大简化了实现和训练。