DeepSeek-R1：通过强化学习激励大语言模型的推理能力论文解析

最新推荐文章于 2025-04-11 10:52:58 发布

AI Echoes

最新推荐文章于 2025-04-11 10:52:58 发布

阅读量1.1k

点赞数 31

文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/hh051020/article/details/145946804

版权

DeepSeek-R1：通过强化学习激励大语言模型的推理能力论文解析

摘要

本文介绍了我们的第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练的模型，在没有使用监督微调（SFT）这一前置步骤的情况下，展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然展现出了许多强大而有趣的推理行为。然而，它也面临一些挑战，如可读性差和多语言混合等问题。
为了解决这些问题并进一步提升推理性能，我们引入了 DeepSeek-R1，该模型在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务中的表现与 OpenAI-o1-1217 相当。
为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个稠密模型（1.5B、7B、8B、14B、32B、70B），这些稠密模型是使用 DeepSeek-R1 对 Qwen 和 Llama 系列模型蒸馏而来的。

简介 1.1 贡献 1.2 评估结果总结
方法 2.1 概述 2.2 DeepSeek-R1-Zero：在基础模型上进行强化学习 2.2.1 强化学习算法 2.2.2 奖励模型 2.2.3 训练模板 2.2.4 性能，自我进化过程和 DeepSeek-R1-Zero 的“顿悟”时刻 2.3 DeepSeek-R1：带冷启动的强化学习 2.3.1 冷启动 2.3.2 推理导向的强化学习 2.3.3 拒绝采样和监督微调 2.3.4 针对所有场景的强化学习 2.4 蒸馏：为小模型赋能推理能力
实验 3.1 DeepSeek-R1 的评估 3.2 蒸馏模型的评估
讨论 4.1 蒸馏 v.s. 强化学习 4.2 不成功的尝试
结论，局限性，和未来的工作

1 简介

近年来，大语言模型（LLMs）正在经历快速的迭代和进化，并逐渐逼近通用人工智能（AGI）。最近，后训练已成为完整训练流程中的一个重要组成部分。研究表明，后训练可以：

提高推理任务的准确性；
与社会价值观保持对齐；
适应用户偏好；
相较于预训练所需的计算资源相对较少。

在推理能力方面，OpenAI 的 o1 系列模型 通过增加思维链推理过程的长度，首次引入了推理时扩展的方法。这种方法在数学、编程和科学推理等多种推理任务中取得了显著进步。然而，有效的测试时扩展 仍然是社区面临的一个未解问题。之前的一些研究探索了各种方法，包括：

基于过程的奖励模型；
强化学习；
蒙特卡洛树搜索和束搜索等搜索算法。

然而，这些方法都未能实现与 OpenAI o1 系列模型相当的通用推理性能。

在本研究中，我们迈出了提升语言模型推理能力的第一步，即采用纯粹的强化学习。我们的目标是探索大语言模型在没有任何监督数据的情况下发展推理能力的潜力，重点关注它们通过纯粹的强化学习过程的自我进化。具体而言：

我们使用 DeepSeek-V3-Base 作为基础模型；
采用 GRPO（组相对策略优化） 作为强化学习框架，以提升模型在推理方面的性能。

在训练过程中，DeepSeek-R1-Zero 自然展现出了许多强大而有趣的推理行为。经过数千步的强化学习训练，DeepSeek-R1-Zero 在推理基准测试中表现出色。例如：

在 AIME 2024 的 pass@1 分数从 15.6% 提高到 71.0%；
通过多数投票，分数进一步提升至 86.7%，与 OpenAI-o1-0912 的表现相匹配。

然而，DeepSeek-R1-Zero 也面临一些挑战，如可读性差和多语言混合。为了解决这些问题并进一步提高推理性能，我们引入了 DeepSeek-R1，该模型结合了：

少量冷启动数据；
多阶段训练流程。

具体而言：

首先收集数千条冷启动数据，用来微调 DeepSeek-V3-Base 模型；
随后进行以推理为导向的强化学习，类似于 DeepSeek-R1-Zero；
在强化学习过程接近收敛时，通过对强化学习训练得到的检查点进行拒绝采样，创建新的监督微调（SFT）数据，并结合来自 DeepSeek-V3 的监督数据（涉及写作、事实问答和自我认知等领域），重新训练 DeepSeek-V3-Base 模型；
在使用新数据对模型进行微调后，将所有场景的提示词考虑进来，对检查点进行额外的强化学习训练。

经过这些步骤，我们获得了一个称为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当。

我们进一步探索了从 DeepSeek-R1 到更小稠密模型的蒸馏技术：

以 Qwen2.5-32B 作为基础模型，直接使用 DeepSeek-R1 对其进行蒸馏的效果优于使用强化学习训练的效果。这表明，大型基础模型（DeepSeek-R1）所发现的推理模式对于提高推理能力至关重要。
我们已将蒸馏后的 Qwen 和 Llama 系列模型开源。
值得注意的是：
- 我们的 14B 蒸馏模型 在推理基准测试中大幅超越了最先进的开源模型 QwQ-32B-Preview；
- 蒸馏后的 32B 和 70B 模型 在稠密模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练：对基础模型进行大规模强化学习

我们直接使用强化学习对基础模型进行训练，而不依赖监督微调（SFT）作为前置步骤。这种方法使模型能够探索思维链（CoT）以解决复杂问题，从而发展出了 DeepSeek-R1-Zero。
- DeepSeek-R1-Zero 展现了自我验证、反思和生成长思维链的能力，标志着研究社区的一个重要里程碑。
- 首次验证：在公开发表的研究中，我们证明了大语言模型的推理能力可以仅通过强化学习激励，而无需监督微调。这一突破为大语言模型领域的未来进展铺平了道路。
我们介绍了开发 DeepSeek-R1 的流程：
- 包含两个强化学习阶段，旨在发现改进的推理模式并与人类偏好对齐；
- 包含两个监督微调（SFT）阶段，作为模型推理和非推理能力的基础。
- 我们相信，这一流程将通过创造更好的模型惠及行业。

蒸馏：小模型也可以很强大

我们证明了大型模型的推理模式可以蒸馏到更小的模型中，从而在性能上优于通过强化学习发现的小模型推理模式。
- 开源的 DeepSeek-R1 及其 API 将使研究社区能够蒸馏出更优秀的小模型。
利用 DeepSeek-R1 生成的推理数据，我们对多个广泛使用的稠密模型进行了微调。评估结果表明：
- DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 中达到 55.5%，超越 QwQ-32B-Preview。
- DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 得分 72.6%，MATH-500 得分 94.3%，LiveCodeBench 得分 57.2%，显著优于之前的开源模型，并与 o1-mini 相当。
- 我们将基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点开源给社区。

1.2 评估结果总结

推理任务：
1. DeepSeek-R1 在 AIME 2024 中达到 79.8% 的 Pass@1 分数，略超 OpenAI-o1-1217；在 MATH-500 中取得 97.3% 的分数，与 OpenAI-o1-1217 相当，显著优于其他模型。
2. 在编程相关任务中：
  - DeepSeek-R1 在代码竞赛任务中表现出专家水平，Elo 评级 2,029，超过 96.3% 的人类参与者；
  - 在工程相关任务中，表现略优于 DeepSeek-V3，有助于实际任务中的开发者。
知识：
- 在 MMLU（90.8%）、MMLU-Pro（84.0%）、GPQA Diamond（71.5%）等基准测试中，DeepSeek-R1 显著超越 DeepSeek-V3，虽略低于 OpenAI-o1-1217，但超过其他闭源模型，展现了在教育任务中的竞争优势。
- 在事实基准测试 SimpleQA 中，DeepSeek-R1 超越 DeepSeek-V3，证明其处理事实查询的能力，与 OpenAI-o1 超越 GPT-4o 的趋势一致。
其它：
- DeepSeek-R1 在创意写作、一般问答、编辑、摘要等任务中表现出色：
  - AlpacaEval 2.0：长度控制胜率 87.6%；
  - ArenaHard：胜率 92.3%，展示其智能处理非考试导向查询的能力。
- 在需要长上下文理解的任务中，显著超越 DeepSeek-V3。

2 方法

2.1 概述

以往研究依赖大量监督数据提升模型性能。本研究证明，即使不使用监督微调（SFT）作为冷启动，推理能力也能通过大规模强化学习显著提高。此外，加入少量冷启动数据可进一步提升性能。接下来，我们介绍：

DeepSeek-R1-Zero：直接将强化学习应用于基础模型，不使用任何监督微调数据；
DeepSeek-R1：从经过数千个思维链（CoT）示例微调的检查点开始应用强化学习；
将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中。

2.2 DeepSeek-R1-Zero：在基础模型上进行强化学习

强化学习在推理任务中显示出显著有效性，但以往研究依赖监督数据，收集耗时。本节探讨大语言模型在无监督数据下的推理能力潜力，关注其通过纯粹强化学习的自我进化。

2.2.1 强化学习算法

Group Relative Policy Optimization（组相对策略优化，GRPO） 为节省训练成本，我们采用 GRPO，省略与策略模型大小相同的评价模型，从组得分中估计基线。对于每个问题 ( q )，GRPO 从旧策略 ( \pi{\theta{old}} ) 中抽样一组输出 ( {o_1, o_2, \dots, o_G} )，通过最大化以下目标函数优化策略模型 ( \pi_\theta )：

2.2.2 奖励模型

奖励决定强化学习的优化方向。我们采用基于规则的奖励系统，包括：

准确性奖励：评估响应正确性。例如，数学问题需以指定格式（如框内）提供答案；LeetCode 问题使用编译器反馈。
格式奖励：要求思考过程置于 <think> 和 </think> 标签之间。

未使用神经奖励模型，因其在大规模强化学习中可能导致奖励黑客问题，且重新训练耗资源。

2.2.3 训练模板

我们设计了一个简单模板，指导 DeepSeek-R1-Zero 生成推理过程和最终答案，避免内容特定偏见，以观察其自然进展：

表 1: DeepSeek-R1-Zero 的模板

用户和助理的一段对话。用户问一个问题，助理解决它。
助理首先在大脑中思考推理过程，然后为用户提供答案。
推理过程和答案需要包含在标签 <think> </think> 和
<answer> </answer> 中，例如 <think> 这里是推理过程 </think>
<answer> 这里是答案 </answer>。用户: 提示词。助手:

注：提示词在训练时替换为具体推理问题。

2.2.4 性能，自我进化过程和 DeepSeek-R1-Zero 的“顿悟”时刻

DeepSeek-R1-Zero 的性能

DeepSeek-R1-Zero 在强化学习训练中性能稳步提升。例如：

AIME 2024 pass@1 从 15.6% 增至 71.0%，与 OpenAI-o1-0912 相当；
通过多数投票，增至 86.7%，超 OpenAI-o1-0912。

表 2: DeepSeek-R1-Zero 与 OpenAI o1 系列模型比较

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
OpenAI-o1-0912	74.4	83.3	94.8	77.3	63.4	1843
DeepSeek-R1-Zero	71.0	86.7	95.9	73.3	50.0	1444

DeepSeek-R1-Zero 的自我进化过程

通过直接强化学习，DeepSeek-R1-Zero 自主提升推理能力：

思考时间持续改善，生成数百至数千个推理标记；
自发产生复杂行为，如反思和探索替代方法，增强了推理能力。

DeepSeek-R1-Zero 的“顿悟”时刻

训练中观察到“顿悟”时刻，模型学会重新评估初始方法，分配更多思考时间：

表 3: “顿悟”时刻示例

问题: 如果 𝑎 > 1, 则方程 √𝑎 − √𝑎 + 𝑥 = 𝑥 的实数解的和等于
响应: <think>
为了解方程 √𝑎 − √𝑎 + 𝑥 = 𝑥, 让我们首先将等式两边进行平方 · · ·
通过移项将根号中的表达式独立出来
(√𝑎 − √𝑎 + 𝑥)^2 = 𝑥^2 =⇒ 𝑎 − √𝑎 + 𝑥 = 𝑥^2.
(𝑎 − 𝑥^2)^2 = 𝑎 + 𝑥 =⇒ 𝑎^2 − 2𝑎𝑥^2 + (𝑥^2)^2 = 𝑎 + 𝑥 =⇒ 𝑥^4 − 2𝑎𝑥^2 − 𝑥 + (𝑎^2 − 𝑎) = 0
…
等一下, 等一下, 等一下。这是个顿悟时刻, 我要记一下..
让我们一步一步重新求值来检查一下正确的和是否是 · · ·
√我们先从下面的等式开始
𝑎 − √𝑎 + 𝑥 = 𝑥
: 首先，让我们先将等式两边平方:
𝑎 − √𝑎 + 𝑥 = 𝑥^2 =⇒ √𝑎 + 𝑥 = 𝑎 − 𝑥^2
接下来, 我可以再将等式两边平方, 然后处理以下等式: · · ·
…

注：模型以拟人化语气重新思考，展现强化学习的力量。

DeepSeek-R1-Zero 的缺陷

尽管表现出色，DeepSeek-R1-Zero 存在可读性差和多语言混合问题。为此，我们探索了 DeepSeek-R1。

2.3 DeepSeek-R1：带冷启动的强化学习

基于 DeepSeek-R1-Zero 的结果，我们提出两个问题：

少量高质量冷启动数据能否进一步提升性能或加速收敛？
如何训练用户友好模型，生成清晰思维链并具备强大通用能力？

训练 DeepSeek-R1 的流程分为四阶段：

2.3.1 冷启动

为避免早期不稳定，我们收集数千条思维链（CoT）数据微调 DeepSeek-V3-Base。方法包括：

少量提示生成长思维链；
提示模型生成详细答案并反思；
以人类可读格式收集 DeepSeek-R1-Zero 输出；
人工后处理精炼。

优势：

可读性：输出格式为 |special_token|<reasoning_process>|special_token|<summary>，含摘要，过滤不可读响应。
潜力：带人类先验的冷启动数据提升性能。

2.3.2 推理导向的强化学习

在微调后，应用大规模强化学习，聚焦编码、数学、科学和逻辑推理任务。引入语言一致性奖励缓解多语言混合，最终奖励为准确性与语言一致性之和，训练至收敛。

2.3.3 拒绝采样和监督微调

强化学习收敛后，收集新 SFT 数据，增强写作、角色扮演等能力：

推理数据：60 万样本，通过拒绝采样生成，过滤混乱输出。
无推理数据：20 万样本，复用 DeepSeek-V3 数据。

使用约 80 万样本微调 DeepSeek-V3-Base 两个周期。

2.3.4 针对所有场景的强化学习

第二阶段强化学习提升有用性和无害性：

推理数据：基于规则奖励指导数学、代码和逻辑推理；
通用数据：奖励模型捕捉人类偏好，强调总结实用性，评估整个响应减少风险。

最终模型在推理、实用性和安全性上均表现出色。

2.4 蒸馏：为小模型赋能推理能力

使用 DeepSeek-R1 的 80 万样本微调开源模型（如 Qwen 和 Llama）：

基础模型：Qwen2.5-Math-1.5B/7B/14B/32B、Llama-3.1-8B、Llama-3.3-70B-Instruct。
仅用 SFT，未加 RL，展示蒸馏有效性。

结果表明，蒸馏显著提升小模型推理能力。

3 实验

基准测试

评估基准包括：

MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA；
SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、CNMO 2024、AIME 2024；
开放式任务：AlpacaEval 2.0、Arena-Hard（用 GPT-4-Turbo-1106 评判，仅评估总结）。

蒸馏模型报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces、LiveCodeBench 结果。

评估提示

标准基准使用 simple-evals 框架；
MMLU-Redux 用 Zero-Eval 零样本评估；
MMLU-Pro、C-Eval、CLUE-WSC 修改为零样本提示；
其他数据集用默认提示；
输出限制为 32,768 token。

基线模型

比较模型：

DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini、OpenAI-o1-1217；
蒸馏模型对比 QwQ-32B-Preview。

评估设置

最大生成长度 32,768 token；
用 pass@( k ) 评估，温度 0.6，top-( p ) 0.95，生成 4-64 个响应：
AIME 2024 报告 cons@64（64 样本多数投票）。

3.1 DeepSeek-R1 的评估

表 4: DeepSeek-R1 与其他模型比较

Benchmark (Metric)	Claude-3.5-Sonnet-1022	GPT-4o 0513	DeepSeek V3	OpenAI o1-mini	OpenAI o1-1217	DeepSeek R1
English
MMLU (Pass@1)	88.3	87.2	88.5	85.2	91.8	90.8
MMLU-Redux (EM)	88.9	88.0	89.1	86.7	-	92.9
MMLU-Pro (EM)	78.0	72.6	75.9	80.3	-	84.0
DROP (3-shot F1)	88.3	83.7	91.6	83.9	90.2	92.2
IF-Eval (Prompt Strict)	86.5	84.3	86.1	84.8	-	83.3
GPQA Diamond (Pass@1)	65.0	49.9	59.1	60.0	75.7	71.5
SimpleQA (Correct)	28.4	38.2	24.9	7.0	47.0	30.1
FRAMES (Acc.)	72.5	80.5	73.3	76.9	-	82.5
AlpacaEval2.0 (LC-winrate)	52.0	51.1	70.0	57.8	-	87.6
ArenaHard (GPT-4-1106)	85.2	80.4	85.5	92.0	-	92.3
Code
LiveCodeBench (Pass@1-COT)	38.9	32.9	36.2	53.8	63.4	65.9
Codeforces (Percentile)	20.3	23.6	58.7	93.4	96.6	96.3
Codeforces (Rating)	717	759	1134	1820	2061	2029
SWE Verified (Resolved)	50.8	38.8	42.0	41.6	48.9	49.2
Aider-Polyglot (Acc.)	45.3	16.0	49.6	32.9	61.7	53.3
Math
AIME 2024 (Pass@1)	16.0	9.3	39.2	63.6	79.2	79.8
MATH-500 (Pass@1)	78.3	74.6	90.2	90.0	96.4	97.3
CNMO 2024 (Pass@1)	13.1	10.8	43.2	67.6	-	78.8
Chinese
CLUEWSC (EM)	85.4	87.9	90.9	89.9	-	92.8
C-Eval (EM)	76.7	76.0	86.5	68.9	-	91.8
C-SimpleQA (Correct)	55.4	58.7	68.0	40.3	-	63.7

知识任务：DeepSeek-R1 在 STEM 问题上提升显著，优于 DeepSeek-V3，在长上下文任务（如 FRAMES）中表现突出。
事实查询：在 SimpleQA 中超越 DeepSeek-V3，但中文 C-SimpleQA 因安全 RL 拒绝部分查询，准确率低于 DeepSeek-V3（无安全 RL 可超 70%）。
指令遵循：IF-Eval 结果优异，得益于 SFT 和 RL 阶段的指令数据。
写作与问答：在 AlpacaEval 2.0 和 ArenaHard 上表现突出，摘要简洁（ArenaHard 平均 689 token，AlpacaEval 2.0 平均 2,218 字符）。
数学与编码：数学任务与 OpenAI-o1-1217 相当，编码算法任务占优，工程任务略逊，未来版本将改进。

3.2 蒸馏模型的评估

表 5: 蒸馏模型与基线比较

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

DeepSeek-R1-7B 超越 GPT-4o-0513；
DeepSeek-R1-14B 超 QwQ-32B-Preview；
DeepSeek-R1-32B/70B 在多数基准超 o1-mini；
RL 可进一步提升蒸馏模型性能。

4 讨论

4.1 蒸馏 v.s. 强化学习

表 6: 蒸馏与 RL 小模型比较

Model	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9
DeepSeek-R1-Zero-Qwen-32B	47.0	60.0	91.6	55.0	40.2
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2

在 Qwen-32B-Base 上训练 10K 步 RL 得 DeepSeek-R1-Zero-Qwen-32B，性能与 QwQ-32B-Preview 相当；
DeepSeek-R1-Distill-Qwen-32B 显著优于 RL 模型。
结论：
1. 蒸馏经济有效，性能优异；
2. 超越智能边界需更强基础模型和大规模 RL。

4.2 不成功的尝试

过程奖励模型 (PRM)

限制：
1. 一般推理中细粒度步骤定义困难；
2. 中间步骤正确性判断挑战大，自动标注不佳，手动不-scalable；
3. 易引发奖励黑客，重训耗资源。
结论：PRM 在排序或引导搜索有效，但 RL 成本高，优势有限。

蒙特卡洛树搜索 (MCTS)

方法：分解答案，生成标签，用 MCTS 搜索，价值模型引导。
挑战：
1. 搜索空间指数级大，限制扩展易陷局部最优；
2. 价值模型训练困难，迭代改进受限。
结论：MCTS 提升推理有限，自我搜索迭代仍是挑战。

5 结论，局限性，和未来的工作

结论：
- DeepSeek-R1-Zero：纯粹 RL，未用冷启动数据，性能强大；
- DeepSeek-R1：结合冷启动和迭代 RL，与 OpenAI-o1-1217 相当；
- 蒸馏：用 80 万样本微调小模型，1.5B 在 MATH 达 83.9%，超越 GPT-4o。
局限性与未来方向：
1. 通用能力：函数调用、多轮对话等不及 DeepSeek-V3，计划用长 CoT 增强；
2. 多语言混合：优化中英文，处理其他语言易混杂，未来更新解决；
3. 提示词工程：对少样本提示敏感，建议 zero-shot 指定格式；
4. 软件工程任务：RL 数据有限未显著改进，未来用拒绝采样或异步评估提升。