群组相对策略优化(GRPO)
1. GRPO算法概述
群组相对策略优化(Group Relative Policy Optimization, GRPO)是DeepSeek-R1中引入的一种创新强化学习算法,专门设计用于提升大语言模型的推理能力。GRPO是对传统近端策略优化(Proximal Policy Optimization, PPO)算法的改进,通过评估一组响应之间的相对表现来优化模型,而不是依赖于外部评估器对每个响应进行绝对评分。
1.1 核心思想
GRPO的核心思想包括:
- 相对评估:通过比较同一问题的多个响应的相对质量,而不是依赖绝对奖励值。
- 群组优化:同时考虑一组响应,而不是单独评估每个响应。
- 自适应学习:根据响应之间的差异自动调整学习步长。
1.2 GRPO的优势
与传统强化学习方法相比,GRPO具有以下优势:
- 无需价值模型:不需要训练单独的价值模型(critic),减少了计算资源需求。
- 样本效率高:通过比较同一问题的多个响应,提高了样本利用效率。
- 稳定性强:相对评估减少了奖励尺度问题,提高了训练稳定性。
- 适合推理任务:特别适合需要复杂问题解决和长思维链的推理任务。
- 减少奖励设计难度:相对评估减轻了精确奖励函数设计的负担。
2. GRPO与传统PPO的区别
2.1 基本框架对比
2.2 关键差异
方面 | 传统PPO | GRPO |
---|---|---|
评估方式 | 绝对评估 | 相对评估 |
样本处理 | 单独处理每个样本 | 群组处理多个样本 |
价值模型 | 需要单独的价值模型 | 不需要价值模型 |
优势估计 | 基于价值函数 | 基于相对排名 |
计算效率 | 较低(需维护两个模型) | 较高(只需一个模型) |
样本效率 | 较低 | 较高 |
稳定性 | 受奖励尺度影响大 | 受奖励尺度影响小 |
2.3 工作流程对比
2.3.1 传统PPO工作流程
- 采样阶段:使用当前策略生成样本(状态-动作对)。
- 评估阶段:使用奖励模型计算每个样本的绝对奖励值。
- 优势估计:使用价值模型估计每个样本的优势函数。
- 策略更新:基于优势函数和概率比率裁剪更新策略。
2.3.2 GRPO工作流程
- 群组采样:对于每个问题,生成多个不同的响应。
- 相对评估:计算每个响应的奖励,并基于奖励对响应进行排序。
- 相对优势计算:基于排序位置计算每个响应的相对优势。
- 策略更新:使用相对优势和概率比率裁剪更新策略。
3. GRPO算法数学公式详解
3.1 基本符号定义
- π θ \pi_\theta πθ:参数为 θ \theta θ</