「DeepSeek 技术解析」：LLM 训练中的强化学习算法

最新推荐文章于 2025-10-23 14:58:48 发布

原创

最新推荐文章于 2025-10-23 14:58:48 发布 · 675 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#算法

这是 DeepSeek 系列文章的第六篇，我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一 [1, 2]：群组相对策略优化（Grouped Relative Policy Optimization，GRPO）[3]。

为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。

本文目录结构：

技术背景：阐释 LLM 训练为何需要强化学习，以及强化学习和基于人类反馈的强化学习（RLHF）的工作原理
强化学习范式：解析并对比基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习范式
GRPO：先回顾 TRPO 和 PPO，再详解 GRPO 如何对 PPO 进行优化改进
总结
参考文献

01 技术背景

1.1 为什么在大语言模型训练中需要强化学习

在将强化学习引入大语言模型训练之前，自然语言处理模型的训练通常分为两个阶段，即通常所说的「预训练（Pre-training）和微调（finetuning）」范式：

预训练阶段：通过在大量文本语料上进行无监督目标训练（如预测缺失的 token），帮助模型建立对语言的整体理解。
监督微调阶段：使用人工标注的数据集进行训练，使模型适应问题解答等特定任务，生成更有用且更有条理的输出。

然而，即使完成这两个阶段的训练，大语言模型生成的回答仍常常与人类的偏好不一致。典型问题包括：产生不准确的信息（幻觉）、回答过于冗长或过于简洁、忽略隐含的上下文信息，或误解讽刺与幽默等表达。

换言之，要让大语言模型真正具备实用性，需要将其与人类偏好对齐，而仅靠监督式微调难以实现这一目标。

这又是为什么呢？

这背后的核心挑战在于：如何将「对齐人类偏好」这种抽象概念转化为可学习的任务目标，使其能够被正确标注，并用于构建有意义的学习目标。 由于人类偏好的复杂性，想要穷举所有可能的问题并为每种问题定义具体标签是不现实的（译者注：例如，为 "冗余回答" 标注 0，为 "简洁回答" 标注 1）。

这正是强化学习发挥关键作用的地方。

1.2 强化学习的工作原理

机器学习算法可大致分为三类：

监督学习 (Supervised Learning) ：通过标注数据（每个输入 x 对应目标 y）训练模型，目标是构建从 x 预测 y 的映射。当 y 为离散值时称为分类问题，连续值时称为回归问题。
无监督学习 (Unsupervised Learning) ：在没有标注数据时，通过发现数据的内在模式进行学习，例如主成分分析（PCA）等降维方法，或 K-Means 等聚类算法。
强化学习 (Reinforcement Learning, RL) ：当难以定义明确的学习目标时，让 RL 模型通过与环境交互获取奖励信号来更新模型。该方法常用于训练机器人保持平衡、行走等场景。

下图展示了强化学习框架的五个核心要素：