RLHF奖励模型与PPO的结合

RLHF奖励模型与PPO的结合

一、RLHF中奖励模型与PPO的结合

1.1 奖励模型的定义与训练
1.1.1 数学公式与场景理解

核心目标:将人类偏好转化为可计算的奖励信号
公式原型
在这里插入图片描述

符号定义
在这里插入图片描述

场景类比
在这里插入图片描述

1.1.2 概率转换与损失函数

在这里插入图片描述
在这里插入图片描述

1.2 PPO在RLHF中的变种

传统 PPO 算法适用于多步骤强化学习问题,需要对每个步骤进行 token 级别的奖励分配。但在 RLHF 中,是将整个响应句子视为一个动作,并在句子级别进行评价。如果直接应用传统 PPO 算法,通常仅会把学习到的句子级奖励分配给最后一个 token ,前面的 tokens 接收到零奖励,这与合理的奖励分配策略存在偏差,导致算法表现不佳。因此,需要对 PPO 进行改进以适配 RLHF。

1.2.1 目标函数调整

核心公式
在这里插入图片描述
在这里插入图片描述

1.2.2 PPO变种整体流程图
监督微调模型
生成数据
奖励模型训练
PPO优化
最终策略模型
人类标注
用户输入
生成回答
迭代数据
1.3 PPO变种与经典PPO对比表格
对比维度经典PPORLHF-PPO变种
奖励来源环境反馈人类反馈(奖励模型输出)
目标函数单一项优化多任务优化(奖励+约束+正则)
约束机制隐式KL约束显式双重约束(KL+SFT正则)
适用场景连续控制任务语言生成任务
训练数据环境采样数据人类标注 + 模型生成数据
1.4 公式与 RLHF 流程的关联

在这里插入图片描述

二、关键总结

  1. 奖励模型:通过人类标注学习评分,将偏好转为可计算信号。
  2. PPO变种:融合奖励信号、KL约束、预训练正则,确保模型符合人类偏好且能力稳定。
  3. 多阶段协同:预训练→监督微调→奖励模型→PPO优化,逐步优化模型,实现高效可控的语言生成。
  4. 多阶段协同:预训练→监督微调→奖励模型→PPO优化,逐步优化模型,实现高效可控的语言生成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值