扎实学习PPO与GRPO原理(下)——解决PPO痛点

经过艰难的PPO算法原理扎实学习PPO与 GRPO原理(中)——概念迁移至NLP领域-优快云博客学习,GRPO理解起来就容易多了,它的的核心思想就是:去Critic化与组内相对比较。这样做的好处是:无需训练一个额外且可能不稳定的Critic网络避免了因Critic预测不准而带来的误差训练更加稳定。并且直接基于奖励模型的偏好进行优化,目标更明确。

传统PPO的核心组件是策略网络(Actor)和价值网络(Critic)。Critic的作用是预测预期累积奖励,从而计算优势函数 $A_t$,实现奖励的分摊。

GRPO的核心创新在于:它移除了独立的Critic网络,转而通过在一个提示(Prompt)下并行采样多个响应(一个“组”),然后直接在组内对这些响应进行相对比较,来隐式地构建优势估计

GRPO 原理过程分步详解

       假设我们有一个提示(Prompt)$x$,当前的策略模型(Actor)$\pi_{\theta}$,和一个奖励模型$R(x, y)$

第一步:分组采样(Generation)

        对于同一个提示 $x$,我们让当前的策略模型 $\pi_{\theta}$并行地生成 K 个完整的响应(Responses)。用 $Y = [y^1, y^2, ..., y^K]$表示这个组(Group),其中每个 $y^k = (y^k_1, y^k_2, ..., y^k_{T^k})$是一个生成的token序列。

第二步:奖励评分与排序(Reward & Ranking)

  • 计算整句奖励:将 K个响应 $y^k$分别送入奖励模型(RM),得到每个响应对应的标量奖励值
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值