【干货】强化学习入门必读:PPO与GRPO,轻松掌握它们的核心要点!

简介

文章通过小学考试比喻,解释强化学习奖励机制演进:从单纯使用绝对分数(Reward)的问题,到引入Critic降低方差,加入Clip防止更新过度,Reference Model防止极端策略,最后介绍GRPO用多次采样平均Reward作为基线,避免了单独价值网络训练,使大型语言模型训练更高效稳定。

一、 开篇

在强化学习(RL)中,如果我们只知道“做对了能拿多少分”,那往往还不够,因为单纯追求高分可能带来种种副作用,比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。

为了解决这些问题,人们在 RL中设计了许多机制–Critic(价值函数)、Clip 操作、ReferenceModel、以及最近流行的GRPO(Group Relative PolicyOptimization)等。

为了把这些概念讲得更生动,我们不妨打个比方: 把RL模型的训练过程想象成小学里的考试场景。

我们(被训练的模型)就像努力考高分的学生,发奖品的人则像 Critic或者其他调控机制。

接下来就让我们循序渐进地看看,为什么只靠最终成绩是不够的,为什么需要一步步引入Critic、Clip、Reference Model,最后又是如何引出 GRPO 的思路。

二、只有 Reward 时的朴素做法: 为什么会有问题

假设我和我弟弟都在小学同一个班上课。老师改卷后给出一个“绝对分数”,我的成绩一般80分以上,弟弟成绩大概 30分左右。

然后我们把这个分数直接拿去找爸爸要零花钱–也就是用“分数本身”作为奖励(Reward)。谁考得分数高,零花钱就多。

一开始听上去没毛病,但结果就有两个问题:

1、不公平: 如果弟弟从 30分进步到60分,付出了非常大的努力,却依然比不过我平时随便考个 80+。他得不到有效激励。

2、不稳定: 我为了冲刺高分,可能会采取极端学习策略(比如疯狂刷题、考前通宵)偶尔考到 95分,偶尔只有 60分,成绩大起大落,导致奖励信号也忽上忽下

这样一来,只拿绝对分数当作 Reward,奖励信号波动很大,弟弟也会觉得不公平,久而久之,就没动力进步了。

数学对应

在强化学习里,如果我们只用:

也就是“把最终 Reward 直接拿来做优化目标”,就容易出现高方差、激励不充分等问题。

换言之,Actor得不到一个和自身水平相称的参考线(baseline),进而影响学习效率。

三、引入 Critic: 用“预期分数线”来改善奖励机制

针对上面的问题,爸爸很快意识到: “不能光看绝对分,而要看看每个人在自己水平线之上进步多少才是关键。

于是爸爸决定: 给我定一个“预期分数线”80分;给弟弟定一个“预期分数线”40分。

考试时只要超出自己那条线,就能得到更多零花钱;如果没有超出,那么零花钱就可能很少或者没有。

这样一来,弟弟如果努力从 30分考到60分,超出自己预期分数线20分,就能得到可观的奖学。

我如果还是 80 多分,增幅不明显,那就算分数比弟弟高,但并不一定多拿太多钱。

这样就鼓励了每个人以自己的水平为起点去进步,而不是一味比谁绝对分高。

当然,爸爸也很忙,不是说一旦定了分数线就一劳永逸–他得根据我们的学习状况来不断“自我调节”,因为如果弟弟水平已经到 60分了,再给他设 40分的线就不合理了。

反之,我要是一直考 85分没什么波动,也可能需要微调我的分数线。所以,爸爸也需要不断学习,只不过他需要学习的是我和弟弟的学习进度。

数学对应

有了这个“分数线”去做差,我们能降低训练过程中的方差,也让高于预期的动作拿到更大的梯度,低于预期的动作被抑制。

四、加入 Clip 与 min 操作: 防止更新过度

有了“分数线”以后,效果确实好了很多。

但新的问题出现了: 如果某一次考试我突然爆发,进了高分段,比如95或100分,爸爸会给我极高奖励,导致我在下一次考试前可能“走火入魔”,去尝试各种极端学习方法,成绩忽高忽低,奖励也随之剧烈波动。

为此,爸爸觉得要适度控制我更新学习策略的“步幅”—次性冲太高也不一定要给我成倍加零花钱。

给得太多,会让我产生极端探索心态,给得太少又会抑制热情。总之需要一个平衡。

数学对应

在 PPO(Proximal Policy Optimization)中,这个“平衡”靠“Clip”操作来完成。我们常见的 PPO 核心目标函数里,有这样一段:

用故事的话讲,就是: 我考到100分,可以多拿奖励,但爸爸会有个“封顶”的约束;下一次还要观察一下再做决定,这样保持学习的平稳性,防止出现一条极端的“歪路子”

五、Reference Model: 防止作弊、极端策略

即便如此,如果我为了追求高分,不惜采取非常规手段–比如考试作弊、威胁老师改卷之类,那不就轻松拿下满分了吗?

这显然是违反原则的。而且如果在语言模型场景,可能出现生成有害言论、编造事实等“走歪”的行为。

于是爸爸又提出一个附加约束:“无论如何,你不能偏离最初正常学习的方法太多。否则即使你考了高分,我也判你不合格,零花钱也不给。

这就好比我们在学期开始(也就是监督微调后)的“合规”状态那里画了一条“参照线”新的行为不能和这个初始策略差太远,否则就要受到惩罚。

数学对应

在 PPO里,这体现为对Reference Model(初始策略)的KL惩罚,具体可加到 Loss 中,比如:

六、GRPO: 用“多次模拟成绩平均值”代替价值函数

有一天,爸爸说:“我没空天天衡量你的学习水平了,不想再手动给你画分数线。

那你干脆先把试卷做5份模拟题,取这5次的平均分,这个平均分就是你的预期分数。

真正考试时,如果你比这个平均分高,就说明你表现超出你自己的期望,我就给奖励;不够的话,说明你的表现没到平均线。”

如此一来,弟弟、我,甚至更多同学都可以用“自己多次模拟考试”的均值来做分数线,不需要依赖一个外部(爸爸)不断微调的“价值网络”。

前面几个环节,我们已经看到了PPO的思路:Actor+Critic+Clip+KL惩罚。

但在实际应用尤其是大型语言模型(LLM)上,Critic(价值函数)通常需要跟Actor同等大小的网络去估计,否则很难评估到位,成本很高。

而且有些场景(比如只在回答末尾才有一个整体Reward)并不太适合训练出精细的价值函数。

这时候就出现了 Group Relative PolicyOptimization(GRPO)

它的要点是: 不用“学习”一个单独的价值网络当 Critic;而是对同一道题目、同一个状态,先用旧策略采样多条输出。

然后把这些输出的平均Reward 当作baseline;*超过平均值就相当于“正向 Advantage”,低于平均值就是“负向 Advantage”

在 GRPO 里,除了这一步,还保留了PPO中的 Clip 和对 Reference Model的KL正则,这些都可以保障更新的稳定性和合规性。

数学对应

DeepSeekMath的技术报告里给出了GRPO的目标函数(省略部分符号细节):

七、结语:回顾与展望

通过这个小学考试的比喻,我们逐步从只看绝对分数的朴素思路,演化到PPO的完整机制(Critic、Advantage、Clip、Reference Model)

再到GRPO的创新思路(用一组输出的平均得分当基线,省去价值函数的繁琐)。

以下几点值得再次强调:

1、Critic 的意义: 它为每个状态或阶段提供“合理预期”,大幅降低了训练方差

2、Clip&min 机制: 约束策略更新幅度,避免一次考试“爆发”带来的巨幅震荡

3、Reference Model: 限制“作弊”或极端行为,让策略不要过度偏离最初合规范围

GRPO的优点: 在大型语言模型中,省掉了价值网络,减少内存和计算负担,还与“对比式Reward Model”天然契合。

就像爸爸改用“让孩子自己多次模拟,然后以平均分当预期线”的思路一样,GRPO让我们不用再额外维护一个庞大的 Critic,也能获得类似的相对奖励信号。

从结果看,这既保持了PPO 原有的稳定性和合规性,又让训练更直接和高效。

八、如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到优快云的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值