【干货】强化学习入门必读：PPO与GRPO，轻松掌握它们的核心要点！

最新推荐文章于 2025-11-23 19:21:38 发布

原创最新推荐文章于 2025-11-23 19:21:38 发布 · 611 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#产品经理 #算法 #人工智能 #机器学习 #大模型学习 #GRPO #PPO

简介

文章通过小学考试比喻，解释强化学习奖励机制演进：从单纯使用绝对分数(Reward)的问题，到引入Critic降低方差，加入Clip防止更新过度，Reference Model防止极端策略，最后介绍GRPO用多次采样平均Reward作为基线，避免了单独价值网络训练，使大型语言模型训练更高效稳定。

一、开篇

在强化学习(RL)中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为单纯追求高分可能带来种种副作用，比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。

为了解决这些问题，人们在 RL中设计了许多机制–Critic(价值函数)、Clip 操作、ReferenceModel、以及最近流行的GRPO(Group Relative PolicyOptimization)等。

为了把这些概念讲得更生动，我们不妨打个比方: 把RL模型的训练过程想象成小学里的考试场景。

我们(被训练的模型)就像努力考高分的学生，发奖品的人则像 Critic或者其他调控机制。

接下来就让我们循序渐进地看看，为什么只靠最终成绩是不够的，为什么需要一步步引入Critic、Clip、Reference Model，最后又是如何引出 GRPO 的思路。

二、只有 Reward 时的朴素做法: 为什么会有问题

假设我和我弟弟都在小学同一个班上课。老师改卷后给出一个“绝对分数”，我的成绩一般80分以上，弟弟成绩大概 30分左右。

然后我们把这个分数直接拿去找爸爸要零花钱–也就是用“分数本身”作为奖励(Reward)。谁考得分数高，零花钱就多。

一开始听上去没毛病，但结果就有两个问题:

1、不公平: 如果弟弟从 30分进步到60分，付出了非常大的努力，却依然比不过我平时随便考个 80+。他得不到有效激励。

2、不稳定: 我为了冲刺高分，可能会采取极端学习策略(比如疯狂刷题、考前通宵)偶尔考到 95分，偶尔只有 60分，成绩大起大落，导致奖励信号也忽上忽下

这样一来，只拿绝对分数当作 Reward，奖励信号波动很大，弟弟也会觉得不公平，久而久之，就没动力进步了。

数学对应

在强化学习里，如果我们只用：

也就是“把最终 Reward 直接拿来做优化目标”，就容易出现高方差、激励不充分等问题。

换言之，Actor得不到一个和自身水平相称的参考线(baseline)，进而影响学习效率。

三、引入 Critic: 用“预期分数线”来改善奖励机制

针对上面的问题，爸爸很快意识到: “不能光看绝对分，而要看看每个人在自己水平线之上进步多少才是关键。

于是爸爸决定: 给我定一个“预期分数线”80分;给弟弟定一个“预期分数线”40分。

考试时只要超出自己那条线，就能得到更多零花钱;如果没有超出，那么零花钱就可能很少或者没有。

这样一来，弟弟如果努力从 30分考到60分，超出自己预期分数线20分，就能得到可观的奖学。

我如果还是 80 多分，增幅不明显，那就算分数比弟弟高，但并不一定多拿太多钱。

这样就鼓励了每个人以自己的水平为起点去进步，而不是一味比谁绝对分高。

当然，爸爸也很忙，不是说一旦定了分数线就一劳永逸–他得根据我们的学习状况来不断“自我调节”，因为如果弟弟水平已经到 60分了，再给他设 40分的线就不合理了。

反之，我要是一直考 85分没什么波动，也可能需要微调我的分数线。所以，爸爸也需要不断学习，只不过他需要学习的是我和弟弟的学习进度。

数学对应

有了这个“分数线”去做差，我们能降低训练过程中的方差,也让高于预期的动作拿到更大的梯度，低于预期的动作被抑制。

四、加入 Clip 与 min 操作: 防止更新过度

有了“分数线”以后，效果确实好了很多。

但新的问题出现了: 如果某一次考试我突然爆发，进了高分段，比如95或100分，爸爸会给我极高奖励，导致我在下一次考试前可能“走火入魔”，去尝试各种极端学习方法，成绩忽高忽低，奖励也随之剧烈波动。

为此，爸爸觉得要适度控制我更新学习策略的“步幅”—次性冲太高也不一定要给我成倍加零花钱。

给得太多，会让我产生极端探索心态，给得太少又会抑制热情。总之需要一个平衡。

数学对应

在 PPO(Proximal Policy Optimization)中，这个“平衡”靠“Clip”操作来完成。我们常见的 PPO 核心目标函数里，有这样一段:

用故事的话讲，就是: 我考到100分，可以多拿奖励，但爸爸会有个“封顶”的约束;下一次还要观察一下再做决定，这样保持学习的平稳性，防止出现一条极端的“歪路子”

五、Reference Model: 防止作弊、极端策略

即便如此，如果我为了追求高分，不惜采取非常规手段–比如考试作弊、威胁老师改卷之类,那不就轻松拿下满分了吗?

这显然是违反原则的。而且如果在语言模型场景，可能出现生成有害言论、编造事实等“走歪”的行为。

于是爸爸又提出一个附加约束：“无论如何，你不能偏离最初正常学习的方法太多。否则即使你考了高分，我也判你不合格，零花钱也不给。

这就好比我们在学期开始(也就是监督微调后)的“合规”状态那里画了一条“参照线”新的行为不能和这个初始策略差太远，否则就要受到惩罚。

数学对应

在 PPO里，这体现为对Reference Model(初始策略)的KL惩罚，具体可加到 Loss 中，比如:

六、GRPO: 用“多次模拟成绩平均值”代替价值函数

有一天，爸爸说：“我没空天天衡量你的学习水平了，不想再手动给你画分数线。

那你干脆先把试卷做5份模拟题，取这5次的平均分，这个平均分就是你的预期分数。

真正考试时，如果你比这个平均分高，就说明你表现超出你自己的期望，我就给奖励；不够的话，说明你的表现没到平均线。”

如此一来，弟弟、我，甚至更多同学都可以用“自己多次模拟考试”的均值来做分数线，不需要依赖一个外部(爸爸)不断微调的“价值网络”。

前面几个环节，我们已经看到了PPO的思路：Actor+Critic+Clip+KL惩罚。

但在实际应用尤其是大型语言模型(LLM)上，Critic(价值函数)通常需要跟Actor同等大小的网络去估计，否则很难评估到位，成本很高。

而且有些场景(比如只在回答末尾才有一个整体Reward)并不太适合训练出精细的价值函数。

这时候就出现了 Group Relative PolicyOptimization(GRPO)

它的要点是: 不用“学习”一个单独的价值网络当 Critic；而是对同一道题目、同一个状态，先用旧策略采样多条输出。

然后把这些输出的平均Reward 当作baseline;*超过平均值就相当于“正向 Advantage”，低于平均值就是“负向 Advantage”

在 GRPO 里，除了这一步，还保留了PPO中的 Clip 和对 Reference Model的KL正则，这些都可以保障更新的稳定性和合规性。

数学对应

DeepSeekMath的技术报告里给出了GRPO的目标函数(省略部分符号细节):

七、结语：回顾与展望

通过这个小学考试的比喻，我们逐步从只看绝对分数的朴素思路，演化到PPO的完整机制(Critic、Advantage、Clip、Reference Model)

再到GRPO的创新思路(用一组输出的平均得分当基线，省去价值函数的繁琐)。

以下几点值得再次强调:

1、Critic 的意义: 它为每个状态或阶段提供“合理预期”，大幅降低了训练方差

2、Clip&min 机制: 约束策略更新幅度，避免一次考试“爆发”带来的巨幅震荡

3、Reference Model: 限制“作弊”或极端行为，让策略不要过度偏离最初合规范围

GRPO的优点: 在大型语言模型中，省掉了价值网络，减少内存和计算负担，还与“对比式Reward Model”天然契合。

就像爸爸改用“让孩子自己多次模拟，然后以平均分当预期线”的思路一样，GRPO让我们不用再额外维护一个庞大的 Critic，也能获得类似的相对奖励信号。

从结果看，这既保持了PPO 原有的稳定性和合规性，又让训练更直接和高效。

八、如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到优快云的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述