RLHF 中主流强化学习算法

RLHF 中主流强化学习算法的损失函数表达式及对比分析

1. 近端策略优化(PPO)
  • 损失函数:组成

    • 剪切代理目标(Clip Objective):限制策略更新幅度,防止剧烈偏移。
    • KL 散度惩罚:约束新策略与参考策略(如 SFT 模型)的偏离程度。
    • 熵奖励:鼓励探索,避免策略过早收敛

特点: 需要同时维护策略模型(Actor)、价值函数模型(Critic)、参考模型(Ref Model)和奖励模型(RM),计算复杂度高,但稳定性强

2. 直接偏好优化(DPO)

  • 核心思想: 通过隐式奖励模型(即策略自身)替代显式奖励模型,直接优化人类偏好数据中的胜率差 
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值