DeepSeek-R1 模型训练详情报告
1. 引言
DeepSeek-R1 作为一款开源的推理模型,其性能据称可与 OpenAI 的 o1 模型相媲美,在人工智能领域引起了广泛关注 。将 DeepSeek-R1 与 OpenAI 的先进模型进行比较,是其引起 AI 社区高度关注的主要原因,这表明开发者旨在达到或超越领先的专有模型的性能,从而将 DeepSeek-R1 定位为极具竞争力的开源替代方案。对 DeepSeek-R1 训练方法的理解对于评估其能力、局限性以及未来研究和开发的潜力至关重要。本报告旨在基于公开信息,对 DeepSeek-R1 的训练过程进行全面分析。
2. 官方发布与概述
DeepSeek-R1 的正式发布及其在 MIT 许可下开源 ,是其发展历程中的一个重要里程碑。模型权重和 API 接口的开放 ,是鼓励广泛采用、研究和社区贡献的战略举措。这一决策与通常用于专有模型的更严格的许可形成对比。DeepSeek 明确表示将所有开源许可统一在 MIT 许可下 ,这体现了其对开放科学的承诺,并降低了开发人员的理解负担,这对于模型潜在的影响和可访问性至关重要。
DeepSeek-R1 迅速在亚马逊云科技(AWS)的 Amazon Bedrock 和微软 Azure AI Foundry 等主要云平台上推出 ,并提供了多种部署选项,包括完全托管的无服务器方案、市场和自定义模型导入 。这表明行业对其抱有浓厚兴趣,并且 DeepSeek 积极致力于使该模型能够方便地用于大规模开发和部署。AWS 强调其是“首家以完全托管、普遍可用的模型形式交付 DeepSeek-R1 的云服务提供商” ,这反映了市场竞争以及该模型的价值。
DeepSeek 声称该模型在推理、代码编写和自然语言理解方面具有强大的能力 。官方发布中对这些关键性能领域的持续强调表明,这些是开发过程中的主要关注点,也是该模型的主要优势。AWS 提供的示例提示专门针对复杂的链式思考推理,进一步支持了这一说法。
3. DeepSeek-R1 模型架构
DeepSeek-R1 基于 DeepSeek-V3-Base 架构。在先前模型的基础上进行构建,表明这是一个迭代的开发过程,之前的模型中的经验和架构选择被应用于 DeepSeek-R1 的设计。理解基础模型的架构至关重要,因为后续的训练阶段都建立在这个基础上。
该模型采用了混合专家(MoE)架构,总参数量为 6710 亿,但每个 token 只激活 370 亿参数 。混合专家架构是一种常见的策略,旨在实现高模型容量和性能,同时在推理过程中保持可管理的计算成本。这表明模型设计侧重于效率。具体参数量(总计 6710 亿,激活 370 亿)是重要的技术细节,为模型的规模和计算需求提供了背景信息。
DeepSeek-R1 的上下文长度为 128K tokens。如此大的上下文窗口表明该模型能够处理和保留来自非常长的文本序列的信息,这对于可能需要考虑大量上下文的复杂推理任务尤其有益。这是一个重要的架构细节,使其区别于上下文窗口较小的模型,并直接影响其对各种应用的适用性。
4. 训练数据与方法
-
4.1 预训练基础 (DeepSeek-V3-Base)
DeepSeek-V3-Base 在包含 14.8 万亿 token 的多样化高质量数据集上进行了预训练。如此大规模的预训练数据集对于大型语言模型获得广泛的语言理解、世界知识和基本推理模式至关重要。这种广泛的预训练为后续更专注于推理能力的训练阶段奠定了必要的基础。预训练的庞大数据量表明在数据采集和处理方面进行了大量投入。
据报告,预训练成本相对较低,为 266.4 万 H800 GPU 时。虽然这个成本仍然很高,但被强调为“经济的”,这表明 DeepSeek 可能采用了高效的训练技术和基础设施,这可能是一个竞争优势。将此成本与其他类似规模的模型进行比较,可以进一步了解其训练效率。
-
4.2 基于强化学习的推理 (GRPO)
强化学习(RL)在 DeepSeek-R1 推理能力的开发中发挥了核心作用,尤其是在“零 SFT”变体(DeepSeek-R1-Zero)中。这种对强化学习的高度依赖标志着与传统严重依赖监督微调的 LLM 训练流程的显著偏离。这表明 DeepSeek 正在探索替代的学习范式,以解锁涌现的推理能力。
DeepSeek 采用了 Group Relative Policy Optimization (GRPO) 算法。选择 GRPO 表明这是一种特定的 RL 算法,其选择可能是基于其在训练大型语言模型以完成复杂任务方面的有效性。GRPO 与 PPO 的比较表明,它可能在稳定性和样本效率方面具有优势。GRPO 的工作原理包括对旧策略的输出进行采样,使用奖励对其进行评分,通过组均值/标准差对优势进行归一化,并优化类似 PPO 的裁剪目标。
DeepSeek-R1-Zero 使用了基于规则的奖励系统,侧重于准确性和格式(使用
<think>
和</think>
标签)。在初始强化学习阶段使用基于规则的奖励系统(尤其是在数学和 LeetCode 问题中评估准确性)提供了一种直接且可扩展的方法来激励正确的推理。格式奖励鼓励使用<think>
标签,这表明试图使模型的推理过程更加明确和可解释。这种基于规则的方法避免了对大量人工标注的偏好数据的需求,从而可能使训练过程更有效率。在 DeepSeek-R1-Zero 中观察到了自我进化过程,模型学会了为复杂的任务分配更多的思考时间。DeepSeek-R1-Zero 在解决推理任务时,随着训练的进行,其响应长度会增加。这种“顿悟时刻”现象是大型强化学习能够产生的强大能力的引人注目的例子。
-
4.3 监督微调阶段
DeepSeek-R1 的“冷启动”监督微调(SFT)阶段使用了一个小型的高质量、可读的链式思考(CoT)示例数据集。这个阶段的目的是提高可读性、语言一致性以及覆盖非推理任务。冷启动数据的来源和特征包括从 DeepSeek-R1-Zero 收集的数据,以及人工标注的数据。在广泛的强化学习之前引入一个小的 SFT 数据集,表明这是一种引导模型产生更像人类且连贯的输出的策略,同时仍然利用强化学习在推理方面的优势。DeepSeek-R1-Zero 和 DeepSeek-R1 在可读性和语言一致性方面的差异直接表明了这种冷启动 SFT 的影响。
随后的 SFT 阶段涉及从强化学习检查点进行拒绝采样,并包含来自 DeepSeek-V3 的非推理数据。使用拒绝采样和生成式奖励模型(DeepSeek-V3)生成和过滤高质量推理数据的过程 表明,这是一种在不完全依赖人工标注的情况下创建大型相关训练数据集的复杂方法。这种自生成的数据,通过 DeepSeek-V3 的监督数据进行丰富,可能在提高推理和通用能力方面发挥了重要作用。将模型用于自身生成训练数据的技术是一个强大的概念,值得详细解释。此外,还整合了通用数据(写作、事实问答等),以扩展模型的能力。
-
4.4 多阶段训练的原理
采用多阶段训练方法的总体原理可能是为了利用不同训练方法的优势。纯强化学习用于涌现推理,初始 SFT 用于更好的输出质量,以及在模型生成的数据上进行进一步的 SFT 以提高性能和泛化能力——每个阶段都针对模型开发的特定方面。这种训练技术的战略组合是一个关键的结论,需要强调其作为 DeepSeek-R1 成功的显著因素。通过每个阶段对模型能力进行迭代改进。
表 1: DeepSeek-R1 训练阶段与目标
阶段名称 | 关键训练方法 | 主要目标 | 关键数据来源 | 相关片段 ID |
冷启动 SFT | 监督微调 | 提高可读性和语言一致性 | 小型高质量 CoT 示例数据集 | 3 |
面向推理的强化学习 | 强化学习 (GRPO) | 增强数学、代码和逻辑等领域的推理能力 | 基于规则的奖励信号 | 9 |
拒绝采样 + SFT | 拒绝采样和监督微调 | 生成高质量推理数据并整合非推理能力 | 来自强化学习检查点的模型生成数据;DeepSeek-V3 数据 | 3 |
所有场景的强化学习 | 强化学习 | 优化通用性、安全性和有益性 | 多样化的提示分布;基于规则和偏好模型的奖励 | 3 |
5. 所用计算资源
与预训练相比,后训练所需的计算资源相对较少。这表明,在基础模型经过大规模预训练后,DeepSeek-R1 的关键推理能力得以相对高效地开发出来。这可能对训练此类先进模型的成本效益产生影响。
已知 DeepSeek-V3-Base 的预训练成本为 266.4 万 H800 GPU 时。了解基础模型的预训练成本有助于了解开发如此大型语言模型所需的巨大计算基础设施。虽然推理的后训练可能相对较少,但总体投入仍然很大。
据报告,DeepSeek-V3 的后训练需要 10 万 GPU 时,这可能包括与 DeepSeek-R1 的推理增强相关的阶段,这进一步支持了推理为重点的训练与初始预训练相比相对高效的观点。
DeepSeek-R1 的性能强调了成本效益,这表明其潜在策略是通过降低计算资源和相关成本方面的门槛,从而使更广泛的受众能够使用先进的人工智能功能。
6. 优化算法与学习率策略
Group Relative Policy Optimization (GRPO) 算法的持续使用突显了其在训练过程中的重要性。进一步研究 GRPO 的具体细节及其对此类任务的优势将是有益的。
初始强化学习阶段使用了基于规则的奖励,这表明侧重于客观正确性和遵守特定格式,这些方面比有益性或创造性等主观质量更容易通过规则量化。这种有针对性的奖励系统可能有助于模型在这些特定领域取得优异的性能。
DeepSeek-R1 的面向推理的强化学习阶段引入了语言一致性奖励,这表明采用了一种精细的优化方法,直接解决了早期训练阶段出现的特定问题(语言混合)。这突出了训练过程的迭代性和适应性。
提供的片段中没有关于学习率策略的详细信息。学习率计划在深度学习模型的收敛和性能中起着至关重要的作用,这些信息将提供更完整的训练过程图景。
7. 遇到的挑战与解决方案
DeepSeek-R1-Zero 在训练过程中面临着可读性差和语言混合等挑战。在纯粹依赖奖励式学习来生成连贯且用户友好的文本方面,这突显了一个关键的局限性。这强调了在语言生成的某些方面需要结合监督学习等其他技术。
DeepSeek-R1 中实施的解决方案——“冷启动”SFT 和语言一致性奖励——展示了一种实用且迭代的方法来克服初始纯强化学习模型的局限性。这突出了识别和解决训练过程中特定弱点的重要性。
对过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)等替代方法所面临挑战的讨论为当前选择的训练方法提供了宝贵的背景信息。这表明研究人员在确定当前流程之前,曾考虑并可能尝试过其他技术,这表明决策过程是充分知情的。
8. 训练技术对模型能力的影响
大规模强化学习似乎是 DeepSeek-R1 涌现强大推理能力的主要驱动力,使其能够在没有明确编程的情况下发展出复杂的解决问题策略,如链式思考推理、自我验证和反思。这表明强化学习可以成为赋予 LLM 先进认知能力的强大工具。这些涌现行为的例子对于理解强化学习的影响至关重要。
通过策略性地结合强化学习在推理方面的优势和监督微调在语言质量和更广泛覆盖方面的优势,多阶段训练方法展示了一种全面的 LLM 开发方法。这使得 DeepSeek-R1 在推理方面表现出色,同时也更易于使用和更具通用性。每个阶段(冷启动 SFT、推理 RL 等)对最终模型能力的具体贡献需要清晰阐述。
DeepSeek-R1 的推理能力成功地提炼到较小的模型中是一个重要的成果,这表明训练过程使大型模型能够学习基本的推理模式,这些模式可以有效地转移到更高效、更小的架构中。这对于在资源受限的环境中部署先进的推理能力具有重要意义。事实上,精馏模型优于其他开源模型,这突显了训练的有效性。
据报告,DeepSeek-R1 在各种推理基准测试中与 OpenAI 的 o1 相当甚至超越了 o1,这有力地验证了所描述训练技术的有效性。它表明,强化学习和监督微调的创新结合可以产生最先进的开源推理能力。这种比较是评估训练过程成功的最终指标。
9. 结论
DeepSeek-R1 的训练过程的关键在于大规模强化学习的创新应用、监督微调的策略性整合以及多阶段方法。DeepSeek-R1 作为一款开源模型,展示了最先进的推理能力,具有重要意义。其训练方法对未来大型语言模型的发展,特别是强化学习驱动方法的潜力,具有重要启示。