扎实学习PPO与 GRPO原理(中)——概念迁移至NLP领域

再次之前,已经在扎实学习PPO与GRPO原理(上)——基础前奏-优快云博客里详细介绍了actor-critic的相关概念和两个网络(策略和价值)模型迭代过程中的梯度计算。在超级玛丽这个游戏中,我们很容易理解超级玛丽就是Agent,当前画面可以被看做是state状态,策略空间也已知(比如向上、向下等),奖励由环境发放……但是当这些概念迁移到NLP领域里的时候,尤其是大语言模型的后训练上时,上述强化学习方法actor-critic的相关概念该如何解释呢?

1. 概念迁移

这是理解的重要前提,可以结合上一篇一起看。

强化学习通用术语 超级玛丽场景里的含义 大语言模型后训练场景里的含义
环境 Environment 整个《超级玛丽》游戏模拟器(关卡物理、敌人生成、得分规则) 由「静态语言模型(固定参数)+ 人类/RM 打分器 + 任务/对话数据集」共同组成的“打分环境”。它接收文本并返回标量奖励,但本身不会再改变模型参数。
智能体 Agent 正在玩的“超级玛丽”这个角色 正在做后训练的那个大语言模型(Actor),也就是我们的目标模型。
状态 State 当前屏幕像素帧或游戏内部 RAM 当前输入给模型的上下文窗口(prompt + 已生成 token 序列)。
动作 Action 手柄按键:{上, 下, 左, 右, A, B, …} 词表中的下一个 token(或整个句子/片段,取决于动作粒度的设计)。动作空间=词表大小≈5~20 万。
策略函数 Policy π 给定像素帧→按键概率 给定上下文→下一个 token 的概率分布(即语言模型本身)。
奖励 Reward r_t 吃蘑菇 +1,通关 +500,掉坑 -100 由人类偏好标注或奖励模型(RM)给出的标量:回答有用、诚实、无害、格式正确等维度。可以是模型也可以是规则函数,自定义。
回报 Return G_t 从当前时刻到游戏结束累积折扣得分 从当前 token 位置到序列结束累积折扣奖励(∑ γ^k r_{t+k})。
动作价值函数 Q(s,a) 在状态 s 按 a 按键后,期望最终得分 在上下文 s 生成 token a 后,整条回复的期望累积奖励。
状态价值函数 V(s) 当前画面 s 下的期望最终得分 当前上下文 s 的期望累积奖励(衡量“从这开始我写得有多好”)。
Critic 网络 一个额外网络:输入像素帧与动作→输出 Q(s,a) 一个额外网络:输入上下文→输出Q(s,a),用来估计人类偏好得分。
Actor-Critic 交互 像素→Actor 选键→环境反馈→Critic 更新→Actor 更新 上下文→Actor 选 token→RM/人打分→Critic 更新→Actor 更新(PPO、RLHF 流程)。

2. 梯度计算过程从理论到实践的演变

回顾一下上篇文章的策略梯度计算方法actor-critic,

上面这个计算过程理论上是正确的,但是实践中效果却不理想,

所以在A2C、PPO方法中上面图中最后一步关于梯度的计算,q_t被替换成了优势函数,定义为A(s, a) = Q(s, a) - V(s) (用优势函数代替这种方法可以被理论证明是对策略梯度的无偏估计,这里略

引入优势函数后
策略梯度变为:∇J(θ) ≈ E[ ∇log π(a|s) * A(s, a) ]

  • 妙处: A(s, a) = Q(s, a) - V(s)

    • 如果 A(s, a) > 0,说明动作a比平均水平好,应该强化这个动作。

    • 如果 A(s, a) < 0,说明动作a比平均水平差,应该弱化这个动作。

    • 如果 A(s, a) = 0,说明动作a就是平均水平。

  • 核心好处: 优势函数将“动作本身的好坏”与“状态本身的好坏”分离开了。V(s)作为一个基线,扣除了状态价值的固有影响,使得梯度估计的方差大大降低。训练变得更加稳定,收敛更快。

简单比喻:

  • 没有A(s, a) (用TD Error): 评价一个员工。公司今年利润超高(状态s好),所以发给这个员工的奖金(TD Error)也很多,但这可能掩盖了他其实表现很差(动作a差)的事实。

  • 有A(s, a): 评价同一个员工。用他带来的价值(Q(s,a))减去公司的平均利润(V(s)),得到他的“优势”。如果结果是负的,说明他拖了后腿,即使公司整体赚钱,也要给他差评。

但是!!!我们不知道真实的Q和V,只能靠估计:

  • (1)如果采用蒙特卡洛的方法来估计,就是直接把整条回报和 V 的差作为 Advantage,无偏方差大:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值