9 月 18 日,国际顶级学术期刊《Nature》在线刊发了 DeepSeek 团队的论文 DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning,并将其作为当期封面。
今年 1 月,DeepSeek R1 模型一登场,就因惊人的“推理”能力震动全球。外界一度怀疑它是不是“学”了竞争对手的成果,但研究团队最新回应:没有!这份声明,就记录在 R1 正式发表的《Nature》同行评审论文中。论文补充了训练数据、安全性等关键信息,让成果更加透明、可信。
更令人惊讶的是,论文首次披露了训练成本:微调约 29.4 万美元,总成本(含基础模型)约 600 万美元,远低于业内动辄上千万美元的投入。
R1 采用纯强化学习(Pure RL)训练方式,并结合群体相对策略优化(GRPO),让模型通过自我试错逐步形成类推理策略。
在 Hugging Face 上,R1 下载量已突破 1090 万。几乎所有 2025 年以来探索大模型强化学习的研究,都或多或少受到了 R1 的启发。
因此,R1 登上《Nature》,不仅意味着学术界首次正视大模型的推理能力,也让我们得以一窥其背后的技术秘密。
想知道论文到底讲了什么?内容较长,建议码后观看。
不过,如果你希望更系统、直观地了解 R1 的训练方法、推理机制及背后的设计逻辑,又怕论文晦涩难懂,这本 《图解 DeepSeek 技术》 非常适合你——图文并茂、讲解直白,把复杂的技术原理拆解得一目了然,让你轻松理解 DeepSeek 的核心技术。
DeepSeek-R1-Zero
为了实现 DeepSeek-R1-Zero 的大规模强化学习(RL)训练,我们构建了一条高效的 RL 流程。具体来说,我们采用了 GRPO 算法,并设计了基于规则的奖励系统来计算准确性和格式相关的奖励。此外,我们的高性能 RL 基础设施在补充材料 2.1 节中进行了描述,确保训练具备良好的可扩展性和高效性。
在训练过程中,我们以 DeepSeek-V3 Base 为基础模型,利用 RL 技术训练出 DeepSeek-R1-Zero。我们设计了一个简洁的提示模板,要求 DeepSeek-R1-Zero 在给出最终答案之前,必须先生成完整的推理过程。提示模板如下:
“用户和助手之间的对话。用户提出问题,助手来解答。助手会先在脑中理清推理过程,然后把答案给用户。推理过程和答案分别用 <think>...</think> 和 <answer>...</answer> 标签标注,也就是 <think> 在这里写推理过程 </think><answer> 在这里写答案 </answer>。用户:提示语。助手:”,其中提示语在训练时会被替换成具体的推理问题。我们刻意只限定这种结构化格式,不涉及具体内容的偏向,以确保能够准确观察模型在强化学习过程中自然的推理发展。

图1:DeepSeek-R1-Zero 在整个训练过程中的准确率和输出长度
图 1a 展示了 DeepSeek-R1-Zero 在 2024 年美国邀请数学竞赛(AIME)基准测试中的表现曲线。
在 RL 训练过程中,其 AIME 2024 的平均 pass@1 分数从初始的 15.6% 大幅提升至 77.9%。进一步地,通过引入自一致性解码技术,模型的表现还能继续提升,准确率达到 86.7%。这一成绩远远超过了 AIME 全体人类参赛者的平均水平。
除了数学竞赛之外(见补充材料图 8),DeepSeek-R1-Zero 在编程竞赛,以及具备研究生水平的生物、物理和化学问题上,同样取得了出色表现。这些结果充分说明了强化学习在提升大语言模型推理能力方面的有效性。
除了在训练过程中推理能力逐步提升之外,DeepSeek-R1-Zero 还在强化学习的作用下表现出自我进化的特征。正如图 1b 所示,DeepSeek-R1-Zero 的思考时长在训练中持续增加,而这一变化完全来源于模型的内在自适应机制,而非外部干预。借助更长的链式思维(CoT),模型能够逐步优化推理过程,生成数百到数千个的 token 来探索并改进其解题策略。
思考时长的增加促进了复杂行为的自发形成。具体而言,DeepSeek-R1-Zero 越来越多地展现出高级推理策略,例如反思性推理和系统性地探索不同解法(见扩展数据图 1a),这显著提升了它在数学、编程等可验证任务上的表现。
值得注意的是,在训练过程中,DeepSeek-R1-Zero 出现了一个类似“顿悟”的时刻(见表 1):它在反思时使用 wait 这一词的频率突然增加(扩展数据图 1b)。这个时刻标志着推理模式的明显转变,也清晰地体现了 DeepSeek-R1-Zero 的自我进化过程。

表1:DeepSeek-R1-Zero 中间版本的一个有趣的“恍然大悟”瞬间。模型学会用拟人化的语气去重新思考。这对我们来说也是一个“恍然大悟”的时刻,让我们得以见证强化学习的力量与魅力。
DeepSeek-R1-Zero 的自我进化凸显了强化学习(RL)的力量与魅力:我们并没有明确告诉模型该如何解题,只是给予了合适的激励,它就能自主形成更高级的解题策略。这一现象提醒我们,RL 具备释放大语言模型更高潜能的能力,也为未来更加自主和自适应的模型铺平了道路。
DeepSeek-R1
尽管 DeepSeek-R1-Zero 展现出了强大的推理能力,但它仍然存在一些问题。例如,它在可读性和语言混用方面表现不足,这是因为其基础模型 DeepSeek-V3 Base 同时在多种语言(尤其是英语和中文)上进行了训练。
为了解决这些问题,我们研发了 DeepSeek-R1,其整体流程如图 2 所示。在初始阶段,我们收集了数千条“冷启动”数据,这些数据展现了更符合人类习惯的对话式思维过程(详见补充材料 2.3.2 节)。随后,我们在这些数据基础上进行强化学习(RL)训练,相关超参数见方法部分“第一阶段 RL 训练细节”,数据说明见补充材料 2.3.1 节。这样做的目的是提升模型在对话式推理和语言一致性方面的表现。
接下来,我们再次引入拒绝采样和监督微调(SFT)。这一阶段在 SFT 过程中同时引入了推理类和非推理类数据(详见补充材料 2.3.3 节),使模型不仅能够在推理任务中表现出色,还展现出更高级的写作能力。
为了让模型进一步贴近人类偏好,我们设计了第二阶段的 RL 训练,旨在提升模型的有用性和安全性,同时继续打磨其推理能力。奖励模型的设计见方法部分“奖励设计”,相关超参数见方法部分“第二阶段 RL 训练细节”。整体训练开销见补充材料 2.4.4 节。

图2:DeepSeek-R1 的多阶段流程。关于 DeepSeek-V3 Base 和 DeepSeek-V3 的详细背景,请参见补充信息(Supplementary Information)第 1.1 节。模型 DeepSeek-R1 Dev1、Dev2 和 Dev3 则代表该流程中的中间检查点(intermediate checkpoints)。
我们在多个基准上对模型进行了评测,包括 MMLU、MMLU-Redux、MMLU-Pro、DROP、C-Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、CLUEWSC、AlpacaEval 2.0、Arena-Hard、SWE-bench Verified、Aider-Polyglot、LiveCodeBench(2024-08 至 2025-01)、Codeforces、中国高中数学奥林匹克(CNMO 2024)以及 AIME 2024。相关基准的详细信息见补充材料表 15–29。
表 2 总结了 DeepSeek-R1 在不同发展阶段的表现(如表 2 所示)。对比 DeepSeek-R1-Zero 和 DeepSeek-R1 Dev1 可以看到,模型在指令跟随方面有了显著提升,这一点从 IF-Eval 和 Arena-Hard 基准得分更高可以得到验证。
但由于冷启动数据规模有限,Dev1 在推理性能上相比 DeepSeek-R1-Zero 出现了一定程度的下降,尤其是在 AIME 基准上表现更为明显。相比之下,DeepSeek-R1 Dev2 在需要高级推理能力的基准上表现出了显著提升,包括代码生成、数学问题求解以及 STEM 相关任务。而在面向通用任务的基准(如 AlpacaEval 2.0)上,仅有小幅改进。
这些结果表明,以推理为导向的强化学习能显著增强推理能力,但对以用户偏好为导向的基准影响有限。

表2:DeepSeek-R1 各阶段的实验结果。粗体数字表示性能具有统计学显著性(t 检验,P < 0.01)
DeepSeek-R1 Dev3 在监督微调(SFT)流程中同时引入了推理类和非推理类数据,从而提升了模型在推理任务和通用文本生成任务上的能力。与 Dev2 相比,DeepSeek-R1 Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 基准上表现出显著提升,这主要得益于大规模非推理语料和代码工程数据的加入。
最终,我们在 Dev3 的基础上,利用混合的推理类和通用数据进行了全面的 RL 训练,得到了最终版本 DeepSeek-R1。在代码和数学类基准上仅有小幅提升,因为前几个阶段已经进行了大量以推理为导向的 RL 训练。最终 DeepSeek-R1 的主要进步体现在通用指令跟随和用户偏好类基准上,其中 AlpacaEval 2.0 提升了 25%,Arena-Hard 提升了 17%。
我们还在补充材料 4.2 节中对 DeepSeek-R1 与其他模型进行了对比;模型安全性评估见补充材料 4.3 节。补充材料第 5 节提供了全面的评测分析,包括与 DeepSeek-V3 的对比、在全新测试集上的表现、数学能力的分项评估,以及推理推迟(test-time scaling)行为的研究。补充材料第 6 节进一步表明,这种强大的推理能力可以迁移到更小规模的模型中。
伦理与安全声明
随着 DeepSeek-R1 推理能力的提升,我们也深刻认识到潜在的伦理风险。例如,R1 可能受到越狱攻击,从而生成危险内容,比如爆炸物制造方案,而增强的推理能力可能使模型生成的计划在操作可行性和可执行性上更强。此外,公开模型还可能受到进一步微调,从而削弱其内在的安全防护。
在补充材料 4.3 节中,我们从多个角度提供了全面的安全评估报告,包括在开源与内部安全评测基准上的表现、跨多语言的安全水平以及对越狱攻击的防护能力。这些综合分析表明,相较于其他最先进模型,DeepSeek-R1 的固有安全水平总体处于中等水平(可与 GPT-4o(2024-05-13)相当)。此外,当结合风险控制系统使用时,模型的安全水平可提升至优良标准。
结论、局限与未来
我们提出了DeepSeek-R1-Zero 和 DeepSeek-R1,它们依靠大规模强化学习来激励模型的推理行为。实验结果表明,预训练检查点本身在复杂推理任务上具备显著潜力。我们认为,释放这一潜力的关键不在于大规模人工标注,而在于提供高难度的推理问题、可靠的验证器以及充足的计算资源。复杂的推理行为,如自我验证与反思,似乎能在 RL 训练过程中自然涌现。
尽管 DeepSeek-R1 在推理基准上取得了前沿成绩,它仍存在若干能力上的局限,具体如下:
结构化输出与工具使用。目前,DeepSeek-R1 的结构化输出能力仍不及现有部分模型。此外,它无法使用搜索引擎、计算器等工具来提升输出表现。不过,构建支持结构化输出和工具使用的 RL 环境并不困难,因此我们预计下一版本将解决这一问题。
Token 效率与传统的推理时计算扩展方法不同,DeepSeek-R1 会根据问题复杂度动态分配推理所需的 token。具体来说,它会用较少的 token 解决简单任务,但在复杂任务上会生成更多 token。然而,在 token 使用效率上仍有优化空间,因为在简单问题上仍观察到模型过度思考的情况。
语言混用 DeepSeek-R1 目前主要针对中文和英文优化,这可能导致在处理其他语言查询时出现语言混用。例如,即使查询不是英文或中文,模型可能仍使用英文进行推理和回答。我们计划在未来版本中解决这一问题。这一局限可能与基础检查点 DeepSeek-V3 Base 有关,该模型主要使用中文和英文,因此在这两种语言的推理任务上效果最佳。
提示工程(Prompting Engineering)在评估 DeepSeek-R1 时,我们发现其对提示信息非常敏感。少量示例提示通常会降低模型表现。因此,我们建议用户直接用零样本方式描述问题并指定输出格式,以获得最佳效果。
软件工程任务由于评测耗时较长,影响 RL 流程效率,大规模 RL 在软件工程任务中尚未广泛应用。因此,DeepSeek-R1 在软件工程基准上的提升有限。未来版本将通过在软件工程数据上引入拒绝采样或在 RL 过程中使用异步评测来提高效率。
除具体能力局限外,纯 RL 方法本身也存在内在挑战:
奖励模型被“破解”纯 RL 的成功依赖可靠的奖励信号。本研究通过推理领域的规则型奖励模型保证奖励可靠性。然而,对于某些任务(如写作),构建可靠奖励模型较为困难。如果奖励信号由模型自身而非预定义规则生成,随着训练推进,模型可能找到“捷径”来“破解”奖励,从而获得高分而非真正优化策略。因此,对于无法通过可靠奖励模型有效评估的复杂任务,纯 RL 方法的规模化仍是一个未解难题。
在本工作中,对于无法获得可靠信号的任务,DeepSeek-R1 通过人工标注创建监督数据,并仅进行数百步 RL 训练。我们希望未来能得到稳健的奖励模型来解决这一问题。
随着 DeepSeek-R1 等纯 RL 方法的出现,未来有望解决任何能够通过验证器有效评估的任务,无论其对人类而言有多复杂。装备了先进 RL 技术的机器,有望在这些领域超越人类能力,通过反复试错不断优化表现。然而,对于那些难以构建可靠奖励模型的任务,缺乏稳健反馈机制可能会减缓进展,因此未来研究应关注如何创新性地定义和优化复杂、难以验证问题的奖励结构。
此外,在推理过程中使用工具也极具潜力。无论是使用编译器或搜索引擎来获取或计算必要信息,还是在现实中借助生物或化学试剂验证最终结果,工具增强推理的整合都可能显著扩展机器解决方案的适用范围和准确性。
方法
GRPO
GRPO 是我们用于训练 DeepSeek-R1-Zero 和 DeepSeek-R1 的强化学习算法。该算法最初提出的目的是简化训练流程并减少 Proximal Policy Optimization(PPO) 的资源消耗,而 PPO 被广泛应用于 LLM 的 RL 阶段。GRPO 的训练流程如扩展数据图 2 所示。
对于每个问题 q,GRPO 从旧策略 πθold 中采样一组输出 {o1, o2,…, oG},然后通过最大化以下目标函数来优化策略模型 πθ :

其中,πref 是参考策略,ϵ 和 β 是超参数,Ai 是优势函数(advantage),通过与每组输出对应的奖励 {r1, r2,…, rG} 计算得到:

关于 GRPO 与 PPO 的对比,见补充材料 1.3 节。
奖励设计
奖励是训练信号的来源,决定了 RL 优化的方向。对于 DeepSeek-R1-Zero,我们使用基于规则的奖励为数学、编码和逻辑推理数据提供精确反馈。对于 DeepSeek-R1,我们在此基础上进行了扩展:对推理数据使用规则奖励,对通用数据使用模型奖励,从而增强学习过程在不同领域的适应性。
规则型奖励
我们的规则型奖励系统主要包括两类:准确性奖励和格式奖励。
准确性奖励,用于评估回答是否正确。例如,对于结果确定的数学问题,模型需要按照指定格式(如在框内)给出最终答案,从而实现基于规则的可靠验证。类似地,对于编程竞赛题,可使用编译器在预设测试用例上评估模型输出,从而生成客观的正确性反馈。
格式奖励,补充准确性奖励,通过强制执行特定的格式要求来实现。特别是,模型被激励将其推理过程封装在指定标签 <think> 和 <think> 中,以确保思路清晰、便于解释与后续分析。

准确性奖励和格式奖励按相同权重合并。值得注意的是,我们没有在推理任务上使用基于神经网络的奖励模型(无论是基于结果还是过程),因为实验发现大规模 RL 中神经奖励模型容易被“破解”,且重新训练此类模型需要大量计算资源,并增加训练流程复杂度,从而影响整体优化。
模型型奖励
对于通用数据,我们使用奖励模型来捕捉复杂场景中的人类偏好。我们基于 DeepSeek-V3 流程,采用相似的偏好对和训练提示分布。
Helpful(有用性)奖励模型
只关注最终摘要,以确保评估重点在于回答对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。
训练过程如下:我们通过 Arena-Hard 提示格式生成偏好对(见补充材料 2.2),每对包含一个用户查询及两个候选回答。每个偏好对向 DeepSeek-V3 查询四次,随机分配 A、B 答案以减小位置偏差。最终偏好分通过四次独立判断取平均,并仅保留分差 (Δ) 的对以确保区分度。为减少长度偏差,我们确保选择和拒绝的回答在长度上相近。总计整理了 66,000 对数据用于训练奖励模型。所有提示均为非推理问题,来源包括公开开源数据集或用户明确同意用于模型改进的数据集。奖励模型架构与 DeepSeek-R1 一致,并增加了用于预测标量偏好分的奖励头。

训练设置:批量大小 256,学习率 6 × 10−6,训练数据集单轮训练。训练时最大序列长度为 8,192 token,推理阶段不设限制。
安全性奖励模型
为了评估并提升模型安全性,我们整理了 106,000 条提示及模型生成回答,按照预定义安全指南标注为“安全”或“不安全”。与有用性奖励模型的成对损失不同,安全性奖励模型采用逐点训练方法区分安全与不安全回答,训练超参数与有用性奖励模型相同。

对于通用查询,每条数据被归入安全性数据集或有用性数据集,分配的奖励,对应各自数据集中定义的奖励。
训练细节
DeepSeek-R1-Zero 训练细节学习率设为3 × 10−6,KL 系数 0.001,rollout 采样温度 1。每个问题采样 16 个输出,最大长度为 32,768 token(8.2k 步前)和 65,536 token(之后)。因此,在 8.2k 步时,模型性能和回答长度均有明显提升。总训练步数为 10,400,对应 1.6 个训练轮次。每步训练包含 32 个独立问题,批量大小为 512。每 400 步用最新策略模型替换参考模型。为加速训练,每次 rollout 生成 8,192 个输出,随机分为 16 个小批次,仅训练一个内部轮次。
第一阶段 RL 训练细节学习率3 × 10−6,KL 系数 0.001,GRPO 剪辑比率 ϵ 到 10,rollout 温度 1。每个问题采样 16 个输出,最大长度 32,768 token。每步训练包含 32 个独立问题,批量大小 512。每 400 步更新参考模型。为减轻语言混用问题,我们在 RL 训练中加入语言一致性奖励(CoT 中目标语言词占比)。

补充材料 2.6 的消融实验显示,该奖励会略微降低性能,但更符合人类偏好,提高可读性。语言一致性奖励直接加到最终奖励中,适用于推理和非推理数据。
剪辑比率对训练至关重要:过低会导致大量 token 梯度被截断,降低模型表现;过高则可能导致训练不稳定。RL 数据详情见补充材料 2.3 节。
第二阶段 RL 训练细节使用组合奖励信号和多样化提示分布训练模型。推理数据仍使用 DeepSeek-R1-Zero 的规则奖励方法,指导数学、编码和逻辑推理学习。训练中观察到,CoT 在多语言提示下常出现语言混用。通用数据使用奖励模型指导训练。最终,将奖励信号与多样化数据分布整合,使模型在推理能力之外,也注重有用性与安全性。
奖励计算公式如下:

第二阶段 RL 保留大部分第一阶段参数,主要区别是采样温度降低至 0.7,以避免生成内容不连贯。总训练步数为 1,700,其中最后 400 步仅使用通用指令数据和基于偏好的奖励信号。我们发现,如果在模型偏好奖励信号下训练步数过多,可能导致奖励被“破解”,相关内容见补充材料 2.5 节。
论文中的补充材料篇幅较大,需要的小伙伴可以进社群领取~

原文链接:
https://www.nature.com/articles/s41586-025-09422-z#Sec23
14

被折叠的 条评论
为什么被折叠?



