论文笔记5：DPO~Your Language Model is Secretly a Reward Model

虽然大规模无监督语言模型 (LM) 能够学习广泛的世界知识和一些推理技能，但由于其训练完全无监督的特性，实现对其行为的精确控制十分困难

现有的实现中，通常使用RLHF。然而，RLHF 是一个复杂且通常不稳定的过程，首先需要拟合一个反映人类偏好的奖励模型，然后使用强化学习对大型无监督语言模型进行微调，以最大化该估计奖励，同时又不会偏离原始模型太远

本文中引入了一种新的 RLHF 奖励模型参数化方法，可以提取相应的最优策略的闭式形式，能够仅用简单的分类损失来解决标准的 RLHF 问题。该算法稳定、高效且计算量轻量，无需在微调期间从语言模型 (LM) 中采样，也无需进行大量的超参数调整

一、Introduction

1.1 DPO与RLHF

大型无监督语言模型的能力与挑战：
- 大型无监督语言模型在海量数据集上训练后展现出令人惊叹的能力
- 这些模型基于人类生成的数据训练，但数据的目标、优先级和技能组合各异，不一定都值得模仿
- 从模型广泛的知识和能力中选择所需响应和行为，对构建安全、高效且可控的AI系统至关重要
现有偏好学习方法：
- 现有方法通常使用强化学习（RL）来引导语言模型匹配人类偏好
- 偏好学习阶段发生在无监督预训练之后，使用精选的人类偏好集来灌输所需行为
- 最成功的方法是基于人类（或人工智能）反馈的强化学习（RLHF/RLAIF），但RLHF流程复杂，涉及多个语言模型的训练，并产生大量计算成本
直接偏好优化（DPO）算法的提出：
- 提出了一种新的算法——直接偏好优化（DPO），旨在直接优化语言模型以遵循人类偏好，无需显式的奖励建模或强化学习
- DPO隐式地优化了与现有RLHF算法相同的目标（基于KL散度约束的奖励最大化），但实现更简单且易于训练
- DPO更新会增加偏好响应相对于不偏好响应的相对对数概率，并包含一个动态的重要性权重以防止模型退化
- DPO依赖于理论偏好模型（如Bradley-Terry模型）来衡量奖励函数与经验偏好数据的匹配程度，但通过变量变化将偏好损失直接定义为策略函数
DPO算法的优势与实验结果：
- DPO是一种简单的非强化学习算法，用于根据偏好训练语言模型
- 实验表明，DPO至少与现有方法（包括基于PPO的RLHF）一样有效，可以在情绪调节、摘要和对话等任务中使用多达60亿个参数的语言模型从偏好中学习

现有方法所使用的基于强化学习的目标函数可以通过一个简单的二元交叉熵目标函数进行精确优化，从而大大简化偏好学习流程

从高层次上讲，现有方法使用精心挑选的人类偏好集，将所需的行为灌输到语言模型中，这些偏好集代表了人类认为安全和有益的行为类型。这个偏好学习阶段发生在对大型文本数据集进行大规模无监督预训练的初始阶段之后。虽然最直接的偏好学习方法是对人类高质量响应的演示进行监督微调，但最成功的方法是基于人类（或人工智能）反馈的强化学习 (RLHF/RLAIF)

RLHF 方法将奖励模型拟合到人类偏好数据集，然后使用强化学习优化语言模型策略，以生成分配高奖励的响应，而不会偏离原始模型太远

虽然 RLHF 生成的模型具有令人印象深刻的对话和编码能力，但 RLHF 的流程比监督学习复杂得多，涉及训练多个语言模型 (LM)，并在训练循环中从语言模型策略中进行采样，这会产生大量的计算成本

1.2 突出表现

在本文中，我们展示了如何直接优化语言模型以遵循人类偏好，而无需显式的奖励建模或强化学习

提出了直接偏好优化 (DPO) 算法，该算法隐式地优化了与现有 RLHF 算法相同的目标（基于 KL 散度约束的奖励最大化），但易于实现且易于训练

直观地说，DPO 更新会增加偏好响应相对于不偏好响应的相对对数概率，但它包含一个动态的、基于每个示例的重要性权重，以防止我们发现的在简单概率比目标下发生的模型退化

与现有算法一样，DPO 依赖于理论偏好模型（例如 Bradley-Terry 模型），该模型衡量给定奖励函数与经验偏好数据的匹配程度

现有方法使用偏好模型定义偏好损失训练奖励模型，然后训练优化已学习奖励模型的策略

直接偏好优化 (DPO) 则使用变量变化将偏好损失直接定义为策略的函数

给定一个人类偏好与模型响应的数据集，DPO 可以使用简单的二元交叉熵目标来优化策略，从而生成与偏好数据拟合的隐式奖励函数的最优策略

DPO的关键在于将隐式的奖励函数（Reward Model）显式地表示为策略的函数，从而直接优化策略以满足人类偏好。具体步骤：

(1) 传统RLHF的瓶颈

(2) DPO的变量变化

DPO通过数学推导，将上述问题转化为直接优化策略的损失函数：

1. 奖励与策略的关系：

2. 反解奖励函数：

3. 代入偏好损失：

(3) DPO的优势

1. 避免RL的不稳定性：PPO需要策略采样、价值函数估计等复杂操作，而DPO只需简单的监督学习

2. 计算高效：单阶段训练，直接优化策略，省去RL的迭代过程

3. 显式利用偏好数据：直接建模人类偏好的概率分布，而非间接通过奖励模型

(4) 与RL-free的关系

DPO是典型的RL-free方法：

不依赖环境交互或奖励信号
将策略优化转化为监督学习问题（通过人类偏好数据直接定义损失函数）
避免了RL的探索-利用困境（Exploration-Exploitation Tradeoff）

DPO通过巧妙的变量变化，将复杂的RLHF流程简化为直接优化策略的监督学习问题，成为RL-free对齐算法的代表。它的高效性和稳定性使其在LLM对齐等领域受到广泛关注，但需注意其依赖高质量偏好数据的前提

二、相关公式详解

2.1 回顾RLHF

RLHF 流程。它通常包含三个阶段：①监督微调 (SFT) ②偏好采样和奖励学习 ③强化学习优化
①SFT：RLHF 通常首先使用监督学习对预先训练好的语言模型进行微调，以完成感兴趣的下游任务（对话、摘要等），从而获得一个模型 $\pi^{SFT}$

②奖励建模阶段：在第二阶段，SFT 模型会根据提示 x 生成答案对 (y1, y2) ∼ $\pi^{SFT}$ (y | x)。这些答案对会被呈现给人工标注员，标注员会表达对其中一个答案的偏好，记为 $y_w\succ y_l|x$ ，其中 $y_w$ 和 $y_l$ 分别表示 (y1, y2) 中偏好的完成方式和非偏好的完成方式

假设偏好由某个潜在奖励模型 $r^*(y,x)$ 生成，而我们无法访问该模型。目前有许多方法可以用来建模偏好，其中Bradley-Terry模型是一种流行的选择。BT 模型规定，人类偏好分布 $p^*$ 可以写成：

假设我们能够访问从 $p^*$ 中采样的静态比较数据集 $D=\left \{ x^{(i)},y^{(i)}_w,x^{(i)}_l \right \} ^N_{i=1}$ }，我们可以参数化一个奖励模型 $r_\phi(x, y)$ ，并通过最大似然法估计参数。将问题定义为二分类问题，我们得到负对数似然损失：

其中 σ 是逻辑函数。在语言模型 (LM) 中，网络 $r_\phi(x, y)$ 通常由 SFT 模型 $\pi^{SFT}$ 初始化，并在最终的 Transformer 层之上添加一个线性层，该线性层对奖励值进行单标量预测。为了确保奖励函数具有较低的方差，先前的研究对奖励进行了归一化，使得对于所有 x， $E_{x,y\sim D}[r_\phi (x,y)]=0$

③强化学习微调阶段：在强化学习阶段，学习到的奖励函数用于向语言模型提供反馈。优化公式如下：

其中 β 是控制与基础参考策略 $\pi_{ref}$ （即初始 SFT 模型 $\pi^{SFT}$ ）偏差的参数。在实践中，语言模型策略 $\pi_\theta$ 也被初始化为 $\pi^{SFT}$ 。增加的约束非常重要，可以防止模型偏离奖励模型准确的分布过远，同时保持生成的多样性，并防止模式崩溃为单个高奖励答案。由于语言生成的离散性，此目标函数不可微，通常通过强化学习进行优化。

标准方法是构建奖励函数 $r(x, y) = r_\phi (x, y) - \beta (log\pi_\theta(y|x)-log\pi_{ref}(y|x))$ ，并使用 PPO 进行最大化

2.2. 公式原理

2.2.1 偏好概率模型

2.2.2 策略优化目标

2.2.3 训练奖励模型

2.2.4 RL微调策略

三、DPO

从上面可知 RLHF 方法先学习奖励，然后通过强化学习对其进行优化，而 DPO 方法利用了特定的奖励模型参数化选择，从而能够以闭包形式提取其最优策略，而无需强化学习训练循环

关键洞察是利用从奖励函数到最优策略的解析映射，这能够将奖励函数的损失函数转换为策略的损失函数。这种变量变换方法避免了拟合显式的、独立的奖励模型，同时仍能够在现有人类偏好模型（如 BT 模型）下进行优化。本质上，策略网络既代表语言模型，也代表（隐式）奖励

3.1 推导 DPO 目标

从与先前工作相同的强化学习目标 <公式 3> 开始，并在广义奖励函数 r 下进行计算。很容易证明，<公式 3> 中受 KL 约束的奖励最大化目标的最优解的形式为:

其中 $Z(x)=\sum _y\pi_{ref}(y|x)exp(\frac{1}{\beta } r(x,y))$ 是partition function

即使我们使用真实奖励函数 $r^*$ 的 MLE 估计 $r_\phi$ ，估计配分函数 Z(x) 仍然非常昂贵，难以在实践中应用。不过，可以重新整理 <公式 4>，将奖励函数表示为其对应的最优策略 $\pi_r$ 、参考策略 $\pi_{ref}$ 和未知配分函数 Z(·)。具体来说，我们首先对 <公式 4> 两边取对数，经过一些代数运算，得到：

将这种重新参数化应用于真实奖励 $r^*$ 和相应的最优模型 $\pi^*$ 。Bradley-Terry 模型仅依赖于两次完成之间的奖励差，即 $p^*(y_1\succ y_2|x)=\sigma(r^*(x,y_1)-r^*(x,y_2))$ 。将 <公式 5> 中 $r^*(x,y)$ 的重新参数化代入偏好模型 <公式 1> 中，配分函数消去，可以仅用最优策略 $\pi^*$ 和参考策略 $\pi_{ref}$ 来表示人类偏好概率。因此，BT 模型下的最优 RLHF 策略 $\pi^*$ 满足偏好模型：

既然我们已经获得了人类偏好数据在最优策略（而非奖励模型）下的概率，就可以为参数化策略 $\pi_\theta$ 构建最大似然目标。类似于奖励建模方法（即<公式 2>），策略目标变为：

这样，使用另一种参数化方法拟合隐式奖励，其最优策略只需 $\pi_\theta$ 即可。此外，由于这等价于拟合一个重新参数化的Bradley-Terry模型，因此它具有某些理论性质，例如在适当的偏好数据分布假设下具有一致性

3.2 DPO 更新有何作用？

为了从机制上理解 DPO，分析损失函数 $L_{DPO}$ 的梯度很有帮助。关于参数 θ 的梯度可以写成：

其中 $\hat{r}_\theta(x,y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}$ 是由语言模型 $\pi_\theta$ 和参考模型 $\pi_{ref}$ 隐式定义的奖励。直观地讲，损失函数 $L_{DPO}$ 的梯度会增加优先完成 $y_w$ 的可能性，并降低不优先完成 $y_l$ 的可能性。重要的是，这些示例的权重取决于隐式奖励模型rˆθ对不优先完成的评价有多高，乘以β，即隐式奖励模型对完成排序的错误程度，这反映了KL约束的强度。我们的实验表明了这种权重的重要性，因为没有加权系数的该方法的简单版本可能会导致语言模型退化

3.3 DPO 概要

通用的 DPO 流程如下：

① 为每个提示 x 采样补全 y1, y2 ∼ $\pi_{ref}$ (· | x)，并根据人类偏好进行标记，以构建离线偏好数据集 $D=\left \{ x^{(i)},y^{(i)}_w,y^{(i)}_{i=1} \right \}$

② 优化语言模型 $\pi_\theta$ ，以最小化给定 $\pi_{ref}$ 、D 和期望 β 的 $L_{DPO}$ 。在实践中，人们更倾向于重复使用公开可用的偏好数据集，而不是生成样本并收集人类偏好。由于偏好数据集是使用 $\pi_{STF}$ 采样的，因此只要可用，我们就会初始化 $\pi_{ref}$ = $\pi_{STF}$ 。但是，当 $\pi_{STF}$ 不可用时，我们通过最大化首选补全 $(x,y_w)$ 的可能性来初始化 $\pi_{ref}$ ，即 $\pi_{ref}$ = $arg\max_{\pi } E_{x,y_w \sim D}[log\pi(y_w,x)]$ 。此过程有助于缓解真实参考分布（不可用）与 DPO 使用的 $\pi_{ref}$ 之间的分布偏差

四、DPO的理论分析

在本节中，将进一步解释 DPO 方法，提供理论支持，并将 DPO 的优势与用于 RLHF 的 Actor Criter 算法的问题联系起来

4.1 LM其实是一个奖励模型

DPO 能够绕过显式奖励的拟合和强化学习，用单个最大似然目标来学习策略。优化目标<公式 5> 等价于具有奖励参数化 $\hat{r}_\theta(x,y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}$ 的 Bradley-Terry 模型，优化参数模型 πθ，这等价于<公式 2> 中变量变化下的奖励模型优化。我们将构建这种重新参数化背后的理论，证明它不会限制已学习奖励模型的类别，并且能够精确地恢复最优策略。首先定义奖励函数之间的等价关系

4.1.1 定义 1

我们说两个奖励函数 r(x, y) 和 r′(x, y) 等价，当且仅当r(x, y) − r′(x, y) = f(x)，其中 f 为某个函数.很容易看出，这确实是一个等价关系，它将奖励函数集划分为不同的类别

我们可以提出以下两个引理：

4.1.2 引理1

在 Plackett-Luce 偏好框架（尤其是 Bradley-Terry 偏好框架）下，来自同一类别的两个奖励函数会引发相同的偏好分布

第一个引理是 Plackett-Luce 模型族中一个众所周知的欠规范问题。由于这种欠规范，通常必须施加额外的可识别性约束，才能保证<公式 2> 中的最大似然估计 (MLE) 的准确性

4.1.3 引理2

来自同一等价类的两个奖励函数在受约束的 RL 问题下会引发相同的最优策略

第二个引理指出，来自同一类别的所有奖励函数都会产生相同的最优策略，因此，对于我们的最终目标，我们只关注从最优类别中恢复一个任意的奖励函数

4.1.4 理论1

在温和的假设下，所有与 Plackett-Luce 模型（尤其是 Bradley-Terry 模型）一致的奖励类别都可以用重新参数化公式表示： $r(x,y)=\beta log\frac{\pi(y|x)}{\pi_{ref}(y|x)}$ 。其中，某个模型 $\pi(y|x)$ 和给定的参考模型 $\pi_{ref}(y|x)$

证明简述：考虑任意奖励函数 $r(x,y)$ ，它导出相应的最优模型 $\pi_r(y|x)$ ，如<公式 4> 所示。我们将证明，r 等价类中的奖励函数可以用上面给出的重新参数化方法表示。我们将投影 f 定义为:

算子 f 只是用 πr 配分函数的对数对奖励函数进行归一化。由于添加的归一化项仅仅是前缀 x 的函数，因此 $f(r;\pi_{ref},\beta)(x,y)$ 是 r(x, y) 等价类中的奖励函数。最后，用公式 5 的右侧公式（该公式适用于任何奖励函数）替换 r，我们得到 $f(r;\pi_{ref},\beta)(x,y)=\beta log\frac{\pi_r(y|x)}{\pi_{ref}(y|x)}$ 。也就是说，投影 f 生成了 r 等价类中具有所需形式的成员，并且我们提出的重新参数化不会损害奖励模型的任何通用性

我们也可以把定理 1 理解为，它精确地指定了 DPO 重参数化在每个等价类中选择哪个奖励函数，即满足以下条件的奖励函数：

π(y | x) 是一个有效分布（概率为正且和为 1）。然而，根据<公式 4>，我们可以看出<公式 9> 是由奖励函数 r(x, y) 诱导的最优策略的配分函数。DPO 算法的关键思想在于，可以对欠约束的 Plackett-Luce（尤其是 Bradley-Terry）偏好模型族施加某些约束，这样我们保留了可表示的奖励模型类别，但明确地使<公式 4> 中的最优策略对于所有提示 x 都易于解析处理

4.2 Actor-Critic 算法的不稳定性

我们还可以使用我们的框架来诊断用于RLHF的标准actor-critic算法（例如PPO）的不稳定性。我们遵循RLHF流程，并重点关注第3节中概述的RL微调步骤。对于第3节中概述的受约束RL问题，我们可以将其与“控制即推理”框架联系起来。我们假设一个参数化模型 $\pi_\theta(y|x)$ ，并最小化 $D_{KL}[\pi_\theta(y|x)||\pi^*(y|x)]$ ，其中π∗是由奖励函数rϕ(y, x)导出的方程7中的最优策略。通过一些代数运算，可以得到优化目标：

这与过往文献中针对 $r_\phi$ 的奖励类别使用 DPO 等效奖励进行优化的目标相同。在这种情况下，我们可以将 $f(r_{\phi},\pi_{ref},\beta)$ 中的正则化项解释为参考策略 $\pi_{ref}$ 的软价值函数。虽然该项不影响最优解，但如果没有它，目标的策略梯度可能会产生很大的方差，从而导致学习不稳定。我们可以使用学习到的价值函数来处理正则化项，但这也很难优化。或者，先前的文献使用人工完成基线（本质上是对正则化项的单样本蒙特卡罗估计）来正则化奖励。相比之下，DPO 重新参数化可以生成一个不需要任何基线的奖励函数

图2左图：预期奖励与参考策略的 KL 值之间的边界。DPO 为所有 KL 值提供了最高的预期奖励，证明了优化的质量

图2右图：使用 GPT-4 作为评估器，DPO 的摘要胜率与人工撰写的摘要胜率。DPO 在摘要方面的表现优于 PPO，同时对采样温度的变化更具鲁棒性

五、实验与讨论

在一个控制良好的文本生成环境中，我们提出一个问题：与 PPO 等常见的偏好学习算法相比，DPO 在参考策略下如何有效地权衡最大化奖励和最小化 KL 散度？接下来，我们评估 DPO 在更大规模模型和更难的 RLHF 任务（包括摘要和对话）上的表现。我们发现，在几乎不调整超参数的情况下，DPO 的表现往往与采用 PPO 的 RLHF 等强基线算法一样好，甚至更好，并且在学习到的奖励函数下，能够返回 N 个采样轨迹中的最佳轨迹

5.1 DPO 对 RLHF 目标的优化效果如何

典型的 RLHF 算法中使用的 KL 约束奖励最大化目标在限制策略偏离参考策略过远的同时，平衡了奖励的利用。因此，在比较算法时，必须同时考虑已获得的奖励和 KL 差异；获得略高的奖励但 KL 过高并不一定可取
图 2 展示了情绪场景中各种算法的奖励-KL 边界。我们对每种算法执行了多次训练，每次运行都使用不同的超参数来表示策略保守性（PPO 的目标 KL ∈ {3, 6, 9, 12}，β ∈ {0.05, 0.1, 1, 5}，α ∈ {0.05, 0.1, 0.5, 1} 表示可能性，优先-FT 的种子为随机数）。本次扫描共包含 22 次运行。每完成 100 个训练步骤直至收敛，我们会在一组测试提示上评估每个策略，计算真实奖励函数下的平均奖励，以及参考策略 $KL(\pi||\pi_{ref})$ 下的平均序列级 $KL^3$

DPO 产生了迄今为止最有效的前沿，在获得最高奖励的同时仍保持较低的 KL。这一结果尤其值得注意，原因如下：

①DPO 和 PPO 优化的是相同的目标，但 DPO 的效率明显更高；DPO 的reward/KL 权衡严格优于 PPO

②即使 PPO 能够获取真实奖励（PPO-GT），DPO 也能实现比 PPO 更好的前沿

5.2 讨论

从偏好中学习是一个强大且可扩展的框架，可用于训练功能强大且对齐的语言模型。我们引入了 DPO，这是一种简单的训练范式，用于从偏好中训练语言模型，而无需强化学习。DPO 并非为了使用现成的强化学习算法而将偏好学习问题强制纳入标准强化学习环境，而是确定了语言模型策略与奖励函数之间的映射，这使得训练语言模型能够直接满足人类偏好，只需简单的交叉熵损失，而无需强化学习，也不会损失通用性。几乎无需调整超参数，DPO 的性能与现有的 RLHF 算法（包括基于 PPO 的算法）相当或更佳；因此，DPO 显著降低了从人类偏好中训练更多语言模型的门槛

六、相关公式推导

6.1 KL 约束奖励最大化目标的最优值

①优化以下目标：

第一部分（奖励项）：
- 目标是最大化策略 π在给定输入 x时生成的输出 y所获得的奖励 r(x,y)，期望回报最大化
第二部分（KL 约束项）：
- 通过 KL 散度限制当前策略 $\pi(y|x)$ 不要偏离参考策略 $\pi_{ref}$ 太远
- 这是为了防止策略过度优化奖励而导致不合理或极端的行为（类似 PPO 或 KL 正则化 的思想）
β 的作用：
- 控制奖励优化和策略保守性之间的权衡（惩罚强度）
- β 越大，策略越保守（贴近 $\pi_{ref}$ ）；β 越小，策略越激进（追求高奖励）

②在任意奖励函数 r(x, y)、参考模型 $\pi_{ref}$ 以及一个通用的非参数策略类下

展开KL散度：

③再转化为最小化问题，将最大化问题转为最小化（取负号）：

④引入分配函数Z(x)

观察到目标函数可以构造一个能量模型，令：

⑤定义配分函数 $Z(x)=\sum_{y}^{} \pi_{ref}(y|x)exp(\frac{1}{\beta}r(x,y) )$ 为归一化常数，则最优策略π∗可表示为：

⑥把π∗带回到目标函数，则有：

第一项 $log\frac{\pi(y|x)}{\pi^*(y|x)}$ ：当前策略 π 与最优策略 π∗ 的KL散度
第二项 −log⁡Z(x)：与 π 无关的常数（优化时可忽略）

直观解释

最优策略 π*：是参考策略 $\pi_{ref}$ 根据奖励 r(x,y) 指数加权后的分布
目标函数：推动策略 π 逼近 π∗，同时隐含地最大化奖励并控制偏离程度
β 的作用：当 β→0完全优化奖励，忽略 $\pi_{ref}$ （可能过拟合；当 β→∞完全跟随 $\pi_{ref}$ ，忽略奖励

⑦由于 Z(x) 不是 y 的函数，可以将上式中的最终目标重新组织为：

现在，由于 Z(x) 不依赖于 π，因此最小化第一个 KL 项的策略可以实现最小值。由吉布斯不等式可知，当且仅当两个分布相同时，KL 散度才会最小化为 0。因此，我们得到了最优解：

6.2 根据 Bradley-Terry 模型推导 DPO 目标

Bradley-Terry 偏好模型：（表示在输入 x 下，输出 y1 优于 y2 的偏好概率）

r*(x,y)：最优奖励函数，可能是通过人类偏好数据学习得到的（例如 Bradley-Terry 模型中的奖励。奖励 r* 越高，能量越低，概率越高
y1,y2：模型生成的两种输出（例如语言模型的两种回复）
x：输入（例如用户的问题或指令）
p*：偏好数据集或偏好分布，记录人类对输出对的偏好（y1>y2y1>y2 或反之）

假设偏好由奖励的差值决定：

其中 σ 是 Sigmoid 函数。展开后即得到 Softmax 形式：

下方公式反映了奖励与策略概率比的对数关系，本质是从策略反推奖励：

r*(x,y)：在输入 xx 和输出 yy 下的最优奖励函数
π*(y∣x)：最优策略（即经过奖励优化后的策略）
$\pi_{ref}(y|x)$ ：参考策略（初始预训练模型或保守策略）
β：调节奖励与策略偏离权重的温度系数
Z(x)：输入相关的配分函数（归一化常数）

目标：在最大化奖励的同时，约束策略 ππ 不要偏离参考策略 $\pi_{ref}$ 太远（通过KL散度正则化）。

解的形式：最优策略 π* 必然满足：

对两边取对数并整理，即可得到原公式

直观解释

第一项 $\beta log\frac{\pi^*}{\pi_{ref}}$ ：
- 表示最优策略与参考策略的对数概率比，即策略调整的“强度”。若 π* 对某些 y 的概率显著高于 $\pi_{ref}$ ，则奖励 r* 更大
第二项 $\beta logZ(x)$ ：是输入相关的偏移量，保证奖励的数值稳定性

策略概率比的对数差：项衡量了 y1 和 y2 相对于参考策略的“改进程度”。如果 π* 对 y1 的概率提升（相比 $\pi_{ref}$ ）大于 y2，则差值会为正，反之则为负
Sigmoid 转换：将对数差通过 Sigmoid 函数转换为概率值，表示 y1≻y2 的置信度

最优策略 π* 和奖励函数 r*(x,y) 满足：

对数比可以表示为：

忽略配分函数 Z(x)（因与 y 无关），公式简化为：

这正是 Bradley-Terry 模型 的标准形式，直接比较两输出的奖励值

6.3 推导DPO目标的梯度

使用 $\bigtriangledown logf(x)=\frac{f'(x)}{f(x)}$ ，再令 $u=\beta log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}-\beta log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)}$ ，导出下式：

再利用 $\sigma'(x)=\sigma(x)(1-\sigma(x))$ 和 $\sigma(-x)=1-\sigma(x)$ 导出下式：

补充：

1. RL-free Algorithm

指不依赖强化学习（Reinforcement Learning, RL）框架的算法，通常通过其他机器学习或优化方法解决问题。这类算法避免了RL的复杂性和局限性（如样本效率低、训练不稳定、奖励设计困难等），适用于对数据效率、稳定性和可解释性要求较高的场景

核心特点

无需交互环境：RL-free算法不依赖“智能体-环境”的交互反馈机制，直接从数据中学习或优化
避免奖励函数设计：RL通常需要精心设计奖励函数，而RL-free方法直接利用监督信号、约束或启发式规则
训练更高效稳定：RL需要大量试错，而RL-free方法（如监督学习）通常收敛更快

常见RL-free方法

监督学习（Supervised Learning）
- 直接通过标注数据学习输入到输出的映射
- 例子：图像分类、机器翻译
模仿学习（Imitation Learning）
- 从专家示范数据中学习策略，无需环境奖励
- 例子：行为克隆（Behavioral Cloning）、逆强化学习（IRL）
优化算法（Optimization-based Methods）
- 使用数学优化（如梯度下降、进化算法）直接求解目标
- 例子：传统控制理论（PID控制器）、组合优化（如TSP问题）
自监督学习（Self-Supervised Learning）
- 从数据本身生成监督信号，无需外部奖励
- 例子：对比学习（Contrastive Learning）、掩码语言模型（如BERT）
规划算法（Planning Algorithms）
- 基于模型或规则进行决策，如动态规划、蒙特卡洛树搜索（MCTS）
- 例子：AlphaGo的“策略网络”初期训练阶段

为什么选择RL-free？

数据充足时：监督学习比RL更高效
任务可建模为静态映射：如图像生成、文本分类
避免RL的不稳定性：如稀疏奖励、探索难题

但需注意：RL-free方法无法解决需要长期规划或探索的问题（如围棋、机器人未知环境导航），此时RL仍是必要工具

2.DPO与PPO的Reward-KL 权衡

DPO 的特点

DPO（Direct Preference Optimization）是一种基于偏好学习的优化方法，它绕过了传统的 奖励模型（Reward Model） 和强化学习优化步骤，直接优化策略以匹配人类偏好数据。它的核心优势包括：

避免强化学习的不稳定性：PPO 需要交替进行策略优化和奖励模型拟合，容易出现训练不稳定问题（如高方差、策略崩溃等），而 DPO 直接优化策略，避免了 RL 循环
更直接的 Reward-KL 权衡：DPO 在目标函数中隐式地优化了奖励和 KL 散度（策略与参考策略的偏离程度），不需要显式地调整 KL 惩罚系数（如 PPO 中的 β）
更高效的优化：DPO 的训练过程类似于监督学习，通常比 PPO 更稳定且计算效率更高

PPO 的特点

PPO（Proximal Policy Optimization）是一种经典的策略梯度方法，它通过以下方式优化策略：

显式的 KL 约束：PPO 使用 KL 散度或裁剪机制（Clipping）来限制策略更新的幅度，防止偏离参考策略太远
依赖奖励模型：PPO 需要先训练一个奖励模型（或使用环境奖励），然后通过强化学习优化策略，这可能导致训练过程更复杂和不稳定
需要调参：PPO 的性能高度依赖于超参数（如 KL 惩罚系数 β 或裁剪范围 ϵ），调参不当可能导致训练失败

DPO 是否严格优于 PPO？

在 Reward-KL 权衡 方面，DPO 确实具有一些理论优势：

更稳定的优化：DPO 直接优化策略，避免了 PPO 的强化学习循环，减少了训练不稳定性。

无需显式 KL 惩罚：DPO 通过偏好数据隐式地控制策略偏离，而 PPO 需要手动调整 KL 惩罚系数
更高效的数据利用：DPO 直接利用人类偏好数据，而 PPO 需要先拟合奖励模型，再优化策略，可能导致信息损失

然而，DPO 也有一定的局限性：

依赖高质量的偏好数据：DPO 的效果高度依赖于偏好数据的质量，而 PPO 可以直接使用环境奖励（在 RL 环境中）
不适用于所有任务：DPO 主要用于语言模型等基于人类偏好的任务，而 PPO 适用于更广泛的 RL 任务（如游戏、机器人控制等）

结论

在 基于人类偏好的任务（如语言模型对齐） 上，DPO 在 Reward-KL 权衡 方面通常比 PPO 更优，因为它更稳定、更高效，且不需要复杂的强化学习优化。但在传统 RL 任务（如游戏、控制）上，PPO 仍然是一个强大的基线方法

因此，DPO 在偏好优化任务上严格优于 PPO，但 PPO 在更广泛的 RL 领域仍有其不可替代的价值

3.能量模型

是一种用标量能量函数（Energy Function）描述数据概率分布的生成模型。其核心思想是：

低能量对应高概率（合理的、符合数据分布的状态）；
高能量对应低概率（不合理的、偏离数据分布的状态）

数学上，能量模型定义的概率分布为：

E(y) 是能量函数（越小表示 y 越合理）；Z(x) 是配分函数（Partition Function），用于归一化概率

能量模型的典型特点

无需显式归一化：训练时通常回避直接计算 Z（因为高维积分难求），转而使用对比散度（Contrastive Divergence）、得分匹配（Score Matching）等方法
灵活性：能量函数 E(y)可以是任意形式的神经网络，能建模复杂分布
生成与推断：生成样本时需从 $p(y)\propto e^{-E(y)}$ 采样（如用Langevin Dynamics）

在RLHF（基于人类反馈的强化学习）中：

奖励函数 r(x,y) 扮演能量函数的角色，指导模型生成高奖励（低能量）的输出；
参考策略 $\pi_{ref}$ 提供正则化，防止模型偏离合理行为
最终策略 π* 是能量模型的一个实例，平衡了奖励最大化和分布约束

与其他模型的关系

对比生成模型（如GAN、VAE）：能量模型是生成模型的统一框架，GAN的判别器、VAE的ELBO均可视为能量函数
Softmax策略：策略梯度中的Softmax输出本质是能量模型（能量=负Q值）