「DeepSeek 技术解析」:LLM 训练中的强化学习算法

这是 DeepSeek 系列文章的第六篇,我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一 [1, 2]:群组相对策略优化(Grouped Relative Policy Optimization,GRPO)[3]。

为确保本文自成体系并阐明 GRPO 的理论基础,我们将首先介绍强化学习的基础概念,重点解析强化学习(RL)及基于人类反馈的强化学习(RLHF)在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式,包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习,回顾经典算法如置信域策略优化(TRPO)和近端策略优化(PPO),最后解析 GRPO 带来的优化创新。

本文目录结构:

  • 技术背景:阐释 LLM 训练为何需要强化学习,以及强化学习和基于人类反馈的强化学习(RLHF)的工作原理
  • 强化学习范式:解析并对比基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习范式
  • GRPO:先回顾 TRPO 和 PPO,再详解 GRPO 如何对 PPO 进行优化改进
  • 总结
  • 参考文献

01 技术背景

1.1 为什么在大语言模型训练中需要强化学习

在将强化学习引入大语言模型训练之前,自然语言处理模型的训练通常分为两个阶段,即通常所说的「预训练(Pre-training)和微调(finetuning)」范式

  • 预训练阶段:通过在大量文本语料上进行无监督目标训练(如预测缺失的 token),帮助模型建立对语言的整体理解。
  • 监督微调阶段:使用人工标注的数据集进行训练,使模型适应问题解答等特定任务,生成更有用且更有条理的输出。

然而,即使完成这两个阶段的训练,大语言模型生成的回答仍常常与人类的偏好不一致。典型问题包括:产生不准确的信息(幻觉)、回答过于冗长或过于简洁、忽略隐含的上下文信息,或误解讽刺与幽默等表达。

换言之,要让大语言模型真正具备实用性,需要将其与人类偏好对齐,而仅靠监督式微调难以实现这一目标。

这又是为什么呢?

这背后的核心挑战在于:如何将「对齐人类偏好」这种抽象概念转化为可学习的任务目标,使其能够被正确标注,并用于构建有意义的学习目标。 由于人类偏好的复杂性,想要穷举所有可能的问题并为每种问题定义具体标签是不现实的(译者注:例如,为 "冗余回答" 标注 0,为 "简洁回答" 标注 1)。

这正是强化学习发挥关键作用的地方。

1.2 强化学习的工作原理

机器学习算法可大致分为三类:

  • 监督学习 (Supervised Learning) :通过标注数据(每个输入 x 对应目标 y)训练模型,目标是构建从 x 预测 y 的映射。当 y 为离散值时称为分类问题,连续值时称为回归问题。
  • 无监督学习 (Unsupervised Learning) :在没有标注数据时,通过发现数据的内在模式进行学习,例如主成分分析(PCA)等降维方法,或 K-Means 等聚类算法。
  • 强化学习 (Reinforcement Learning, RL) :当难以定义明确的学习目标时,让 RL 模型通过与环境交互获取奖励信号来更新模型。该方法常用于训练机器人保持平衡、行走等场景。

下图展示了强化学习框架的五个核心要素:

图 1. 强化学习的五个要素:智能体、环境、奖励、状态和动作(Image from wiki)

以训练小狗坐下为例,五要素对应如下:

  • 智能体 (Agent) :学习指令的小狗
  • 环境 (Environment) :小狗所处的周围环境
  • 状态 (State) :小狗当前姿势(是否处于坐姿)
  • 奖励 (Reward) :小狗正确执行指令后获得的零食
  • 动作 (Action) :小狗可执行的动作(坐下、跳跃、吠叫等)

监督学习中的学习目标和强化学习中的奖励机制有何本质区别?

在监督学习中,每个输入样本都需配备一个明确的标准答案,模型通过最小化预测值与正确答案间的损失函数(loss function)进行优化。而在强化学习中,智能体通过与环境的交互来学习 ------ 每个动作都没有明确的标准答案,而是通过环境反馈的奖励信号(reward)来调整其行为。

需要注意,强化学习的奖励信号通常具有一定的延迟,而且可能非常稀少。例如下棋时,只有游戏结束时才能获得 "胜利" 或 "失败" 的最终奖励。这意味着智能体无法立即判断单个动作的优劣,必须通过长期试错来学习如何使累积到的奖励最大化。

这一特性使强化学习在缺乏

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值