RLHF奖励模型与PPO的结合
一、RLHF中奖励模型与PPO的结合
1.1 奖励模型的定义与训练
1.1.1 数学公式与场景理解
核心目标:将人类偏好转化为可计算的奖励信号
公式原型:
符号定义:
场景类比:
1.1.2 概率转换与损失函数
1.2 PPO在RLHF中的变种
传统 PPO 算法适用于多步骤强化学习问题,需要对每个步骤进行 token 级别的奖励分配。但在 RLHF 中,是将整个响应句子视为一个动作,并在句子级别进行评价。如果直接应用传统 PPO 算法,通常仅会把学习到的句子级奖励分配给最后一个 token ,前面的 tokens 接收到零奖励,这与合理的奖励分配策略存在偏差,导致算法表现不佳。因此,需要对 PPO 进行改进以适配 RLHF。
1.2.1 目标函数调整
核心公式:
1.2.2 PPO变种整体流程图
1.3 PPO变种与经典PPO对比表格
对比维度 | 经典PPO | RLHF-PPO变种 |
---|---|---|
奖励来源 | 环境反馈 | 人类反馈(奖励模型输出) |
目标函数 | 单一项优化 | 多任务优化(奖励+约束+正则) |
约束机制 | 隐式KL约束 | 显式双重约束(KL+SFT正则) |
适用场景 | 连续控制任务 | 语言生成任务 |
训练数据 | 环境采样数据 | 人类标注 + 模型生成数据 |
1.4 公式与 RLHF 流程的关联
二、关键总结
- 奖励模型:通过人类标注学习评分,将偏好转为可计算信号。
- PPO变种:融合奖励信号、KL约束、预训练正则,确保模型符合人类偏好且能力稳定。
- 多阶段协同:预训练→监督微调→奖励模型→PPO优化,逐步优化模型,实现高效可控的语言生成。
- 多阶段协同:预训练→监督微调→奖励模型→PPO优化,逐步优化模型,实现高效可控的语言生成。