grpo算法学习(一)

Group Relative Policy Optimization(GRPO)

我们假设数据总有用完的一天,有限数据下,只通过RL训练便能够“涌现”在深度推理回答的长度和反思的能力,是更充分的数据挖掘,这是grpo的初衷。

重要性采样:重要性采样是一种通过调整样本权重,用旧分布(旧策略)的样本来估计新分布(新策略)期望值的方法。

GRPO的创新点:直接使用组内样本的奖励计算基线,无需Critic模型,降低了计算成本。

Critic 模型:

是强化学习中价值函数的一种表示,主要用于评估状态或动作的价值。在 Actor-Critic 架构中,Critic 负责评估策略的好坏,为 Actor 提供学习信号。根据评估对象的不同,Critic 模型可以分为以下两类:

  • 状态价值函数 V (s):评估在状态 s 下采取策略所能获得的长期累积回报。
  • 动作价值函数 Q (s,a):评估在状态 s 下采取动作 a 所能获得的长期累积回报。

GRPO(广义信赖域策略优化)

GRPO 是信赖域策略优化(TRPO)的扩展,它通过引入广义约束来提高算法的稳定性和样本效率。与 TRPO 相比,GRPO 具有以下特点:

  • 允许更灵活的约束形式,不限于 KL 散度。
  • 可以处理连续动作空间和离散动作空间。
  • 通过优化广义目标函数,平衡了探索与利用的关系。

SAC(软演员 - 评论家算法)

SAC 是一种基于最大熵强化学习框架的无模型算法,它在优化累积回报的同时,鼓励策略保持高熵。SAC 具有以下特点:

  • 最大熵目标:在传统累积回报的基础上,增加了熵正则化项,提高了策略的探索能力。
  • 离线策略学习:使用经验回放缓冲区提高样本效率。
  • 双 Critic 结构:通过两个 Critic 网络减少 Q 值估计的偏差。
  • 自动熵调节:可以自动调整熵正则化的权重,无需手动调参。

这三个概念在强化学习中各有侧重:Critic 模型是一种基础组件,GRPO 是一种优化方法,而 SAC 是一种完整的算法框架。在实际应用中,它们经常结合使用,例如 SAC 中就包含了 Critic 模型来评估动作价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值