RLHF奖励模型与PPO的结合

最新推荐文章于 2025-05-21 17:11:48 发布

原创最新推荐文章于 2025-05-21 17:11:48 发布

· 741 阅读

9 ·

版权

文章标签：

#算法 #人工智能 #RLHF #PPO

微调课程笔记专栏收录该内容

30 篇文章

订阅专栏

RLHF奖励模型与PPO的结合

一、RLHF中奖励模型与PPO的结合

1.1 奖励模型的定义与训练

1.1.1 数学公式与场景理解

核心目标：将人类偏好转化为可计算的奖励信号
公式原型：
在这里插入图片描述

符号定义：
在这里插入图片描述

场景类比：
在这里插入图片描述

1.1.2 概率转换与损失函数

在这里插入图片描述

1.2 PPO在RLHF中的变种

传统 PPO 算法适用于多步骤强化学习问题，需要对每个步骤进行 token 级别的奖励分配。但在 RLHF 中，是将整个响应句子视为一个动作，并在句子级别进行评价。如果直接应用传统 PPO 算法，通常仅会把学习到的句子级奖励分配给最后一个 token ，前面的 tokens 接收到零奖励，这与合理的奖励分配策略存在偏差，导致算法表现不佳。因此，需要对 PPO 进行改进以适配 RLHF。

1.2.1 目标函数调整

核心公式：
在这里插入图片描述

1.2.2 PPO变种整体流程图

1.3 PPO变种与经典PPO对比表格

对比维度	经典PPO	RLHF-PPO变种
奖励来源	环境反馈	人类反馈（奖励模型输出）
目标函数	单一项优化	多任务优化（奖励+约束+正则）
约束机制	隐式KL约束	显式双重约束（KL+SFT正则）
适用场景	连续控制任务	语言生成任务
训练数据	环境采样数据	人类标注 + 模型生成数据