经过艰难的PPO算法原理扎实学习PPO与 GRPO原理(中)——概念迁移至NLP领域-优快云博客学习,GRPO理解起来就容易多了,它的的核心思想就是:去Critic化与组内相对比较。这样做的好处是:无需训练一个额外且可能不稳定的Critic网络,避免了因Critic预测不准而带来的误差,训练更加稳定。并且直接基于奖励模型的偏好进行优化,目标更明确。
传统PPO的核心组件是策略网络(Actor)和价值网络(Critic)。Critic的作用是预测预期累积奖励,从而计算优势函数 ,实现奖励的分摊。
GRPO的核心创新在于:它移除了独立的Critic网络,转而通过在一个提示(Prompt)下并行采样多个响应(一个“组”),然后直接在组内对这些响应进行相对比较,来隐式地构建优势估计。
GRPO 原理过程分步详解
假设我们有一个提示(Prompt),当前的策略模型(Actor)
,和一个奖励模型
。
第一步:分组采样(Generation)
对于同一个提示 ,我们让当前的策略模型
并行地生成 K 个完整的响应(Responses)。用
表示这个组(Group),其中每个
是一个生成的token序列。
第二步:奖励评分与排序(Reward & Ranking)
- 计算整句奖励:将 K个响应
分别送入奖励模型(RM),得到每个响应对应的标量奖励值

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



