大模型学习笔记 - LLM 对齐优化算法 DPO

JL_Jessie

已于 2024-08-24 20:09:46 修改

阅读量1.4k

点赞数 16

文章标签：学习笔记算法 LLM

于 2024-08-24 19:48:03 首次发布

本文链接：https://blog.youkuaiyun.com/m0_37531129/article/details/141503950

版权

LLM - DPO

LLM - DPO

DPO 概述

大模型预训练是从大量语料中进行无监督学习，语料库内容混杂，训练的目标是语言模型损失，任务是next token prediction，生成的token 不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐，通常采用的方法是基于人类反馈的强化学习方法RLHF. RLHF 是一个复杂且经常不稳定的过程，RLHF 分为2个步骤：

首先，训练一个SFT模型
然后，训练一个反映人类偏好的奖励模型（Reward model），
最后，使用强化学习微调大型无监督 LM，以最大化这种估计奖励，而不会偏离原始模型太远。

DPO论文证明现有方法使用的基于 RL 的目标可以通过简单的二元交叉熵目标精确优化，大大简化了偏好学习管道。我们的方法利用了奖励模型参数化的特定选择，它可以在没有 RL 训练循环的情况下以封闭形式提取其最优策略。DPO是稳定的、高性能的、计算量轻的，在微调或执行显著的超参数调优时不需要从LM中采样。我们的实验表明，DPO可以微调LM，使其与人类偏好保持一致，甚至比现有方法更好。

核心就是：不需要显示地训练一个Reward Model，而是利用从奖励函数到最优策略的解析映射，从而将奖励函数上的偏好损失函数转换为策略上的偏好损失函数。
具体做法是给定人类对模型响应的偏好数据集，DPO使用简单的二元交叉熵目标优化策略，而无需在训练期间明确学习奖励函数或从策略中采样

DPO 目标函数推导

首先，DPO的目标函数是根据RLHF的2步骤的目标函数进行推理得到的。我们先看 RLHF步骤中的目标函数：

一个是RewardModel：
$max_{r_{\theta}}E_{(x,y_w,y_l)\in D}[log(\sigma(r_{\phi}(x,y_w) - r_{\phi}(x,y_l)))]$
一个是RL目标函数：
$max_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x)||\pi_{ref}(y|x)]$

下面我们针对RL的目标函数进行推导，看DPO的目标是如何得到的。

对于RL目标函数进行展开计算：
$max_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x)||\pi_{ref}(y|x)]$
$=max_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[r_{\phi}(x,y)] - \beta log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)}$
$=min_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[\beta log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} - r_{\phi}(x,y)]$
$=min_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} - \frac{1}{\beta }r_{\phi}(x,y)]$
$=min_{\pi_{\theta}}E_{(x \in D,y \in \pi_{\theta}(y|x))}[log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} - log(e^{\frac{1}{\beta }r_{\phi}(x,y)})]$

最低0.47元/天解锁文章