Group Relative Policy Optimization(GRPO)
我们假设数据总有用完的一天,有限数据下,只通过RL训练便能够“涌现”在深度推理回答的长度和反思的能力,是更充分的数据挖掘,这是grpo的初衷。
重要性采样:重要性采样是一种通过调整样本权重,用旧分布(旧策略)的样本来估计新分布(新策略)期望值的方法。
GRPO的创新点:直接使用组内样本的奖励计算基线,无需Critic模型,降低了计算成本。
Critic 模型:
是强化学习中价值函数的一种表示,主要用于评估状态或动作的价值。在 Actor-Critic 架构中,Critic 负责评估策略的好坏,为 Actor 提供学习信号。根据评估对象的不同,Critic 模型可以分为以下两类:
- 状态价值函数 V (s):评估在状态 s 下采取策略所能获得的长期累积回报。
- 动作价值函数 Q (s,a):评估在状态 s 下采取动作 a 所能获得的长期累积回报。
GRPO(广义信赖域策略优化)
GRPO 是信赖域策略优化(TRPO)的扩展,它通过引入广义约束来提高算法的稳定性和样本效率。与 TRPO 相比,GRPO 具有以下特点:
- 允许更灵活的约束形式,不限于 KL 散度。
- 可以处理连续动作空间和离散动作空间。
- 通过优化广义目标函数,平衡了探索与利用的关系。
SAC(软演员 - 评论家算法)
SAC 是一种基于最大熵强化学习框架的无模型算法,它在优化累积回报的同时,鼓励策略保持高熵。SAC 具有以下特点:
- 最大熵目标:在传统累积回报的基础上,增加了熵正则化项,提高了策略的探索能力。
- 离线策略学习:使用经验回放缓冲区提高样本效率。
- 双 Critic 结构:通过两个 Critic 网络减少 Q 值估计的偏差。
- 自动熵调节:可以自动调整熵正则化的权重,无需手动调参。
这三个概念在强化学习中各有侧重:Critic 模型是一种基础组件,GRPO 是一种优化方法,而 SAC 是一种完整的算法框架。在实际应用中,它们经常结合使用,例如 SAC 中就包含了 Critic 模型来评估动作价值。
1526

被折叠的 条评论
为什么被折叠?



