这是 DeepSeek 系列文章的第六篇,我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一 [1, 2]:群组相对策略优化(Grouped Relative Policy Optimization,GRPO)[3]。
为确保本文自成体系并阐明 GRPO 的理论基础,我们将首先介绍强化学习的基础概念,重点解析强化学习(RL)及基于人类反馈的强化学习(RLHF)在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式,包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习,回顾经典算法如置信域策略优化(TRPO)和近端策略优化(PPO),最后解析 GRPO 带来的优化创新。
本文目录结构:
- 技术背景:阐释 LLM 训练为何需要强化学习,以及强化学习和基于人类反馈的强化学习(RLHF)的工作原理
- 强化学习范式:解析并对比基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习范式
- GRPO:先回顾 TRPO 和 PPO,再详解 GRPO 如何对 PPO 进行优化改进
- 总结
- 参考文献
01 技术背景
1.1 为什么在大语言模型训练中需要强化学习
在将强化学习引入大语言模型训练之前,自然语言处理模型的训练通常分为两个阶段,即通常所说的「预训练(Pre-training)和微调(finetuning)」范式:
- 预训练阶段:通过在大量文本语料上进行无监督目标训练(如预测缺失的 token),帮助模型建立对语言的整体理解。
- 监督微调阶段:使用人工标注的数据集进行训练,使模型适应问题解答等特定任务,生成更有用且更有条理的输出。
然而,即使完成这两个阶段的训练,大语言模型生成的回答仍常常与人类的偏好不一致。典型问题包括:产生不准确的信息(幻觉)、回答过于冗长或过于简洁、忽略隐含的上下文信息,或误解讽刺与幽默等表达。
换言之,要让大语言模型真正具备实用性,需要将其与人类偏好对齐,而仅靠监督式微调难以实现这一目标。
这又是为什么呢?
这背后的核心挑战在于:如何将「对齐人类偏好」这种抽象概念转化为可学习的任务目标,使其能够被正确标注,并用于构建有意义的学习目标。 由于人类偏好的复杂性,想要穷举所有可能的问题并为每种问题定义具体标签是不现实的(译者注:例如,为 "冗余回答" 标注 0,为 "简洁回答" 标注 1)。
这正是强化学习发挥关键作用的地方。
1.2 强化学习的工作原理
机器学习算法可大致分为三类:
- 监督学习 (Supervised Learning) :通过标注数据(每个输入 x 对应目标 y)训练模型,目标是构建从 x 预测 y 的映射。当 y 为离散值时称为分类问题,连续值时称为回归问题。
- 无监督学习 (Unsupervised Learning) :在没有标注数据时,通过发现数据的内在模式进行学习,例如主成分分析(PCA)等降维方法,或 K-Means 等聚类算法。
- 强化学习 (Reinforcement Learning, RL) :当难以定义明确的学习目标时,让 RL 模型通过与环境交互获取奖励信号来更新模型。该方法常用于训练机器人保持平衡、行走等场景。
下图展示了强化学习框架的五个核心要素:

图 1. 强化学习的五个要素:智能体、环境、奖励、状态和动作(Image from wiki)
以训练小狗坐下为例,五要素对应如下:
- 智能体 (Agent) :学习指令的小狗
- 环境 (Environment) :小狗所处的周围环境
- 状态 (State) :小狗当前姿势(是否处于坐姿)
- 奖励 (Reward) :小狗正确执行指令后获得的零食
- 动作 (Action) :小狗可执行的动作(坐下、跳跃、吠叫等)
监督学习中的学习目标和强化学习中的奖励机制有何本质区别?
在监督学习中,每个输入样本都需配备一个明确的标准答案,模型通过最小化预测值与正确答案间的损失函数(loss function)进行优化。而在强化学习中,智能体通过与环境的交互来学习 ------ 每个动作都没有明确的标准答案,而是通过环境反馈的奖励信号(reward)来调整其行为。
需要注意,强化学习的奖励信号通常具有一定的延迟,而且可能非常稀少。例如下棋时,只有游戏结束时才能获得 "胜利" 或 "失败" 的最终奖励。这意味着智能体无法立即判断单个动作的优劣,必须通过长期试错来学习如何使累积到的奖励最大化。
这一特性使强化学习在缺乏

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



