摘要
我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地展现了许多强大而有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 基于 Qwen 和 Llama 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
1. 介绍
近年来,大型语言模型(LLMs)经历了快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以在推理任务上提高准确性、与社会价值观保持一致并适应用户偏好,同时相比预训练所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1 系列模型首次引入了通过增加链式推理过程的长度来实现推理时的扩展。这种方法在数学、编程和科学推理等各种推理任务上取得了显著的改进。然而,有效的测试时扩展仍然是研究社区的一个未解之决的问题。之前的工作探索了各种方法,包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索和束搜索等搜索算法。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。
在本文中,我们迈出了通过纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架来提高模型在推理任务上的性能。在训练过程中,DeepSeek-R1-Zero 自然地展现了许多强大而有趣的推理行为。经过数千步的 RL 训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,AIME 2024 的 pass@1 分数从 15.6% 提高到 71.0%,通过多数投票进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。
然而,DeepSeek-R1-Zero 面临一些挑战,例如可读性差和语言混合。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千个冷启动数据来微调 DeepSeek-V3-Base 模型。随后,我们像 DeepSeek-R1-Zero 一样进行面向推理的 RL。当 RL 过程接近收敛时,我们通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。经过新数据的微调后,检查点经过额外的 RL 过程,考虑了所有场景的提示。经过这些步骤后,我们获得了称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
我们还探索了从 DeepSeek-R1 蒸馏到更小的密集模型。使用 Qwen2.532B 作为基础模型,直接从 DeepSeek-R1 蒸馏出的模型比在其上应用 RL 的性能更好。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama 系列模型。值得注意的是,我们的蒸馏 14B 模型大幅超越了开源的 QwQ-32B-Preview,而蒸馏的 32B 和 70B 模型在密集模型的推理基准测试中创下了新纪录。
1.1 贡献
后训练:在基础模型上进行大规模强化学习
-
我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式推理(CoT)来解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长链推理等能力,标志着研究领域的一个重要里程碑。值得注意的是,这是首次公开研究验证大型语言模型(LLMs)的推理能力可以通过纯强化学习来激励,而无需 SFT。这一突破为未来的研究进展铺平了道路。
-
我们介绍了开发 DeepSeek-R1 的流程。该流程包括两个 RL 阶段,旨在发现改进的推理模式并使其符合人类偏好,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信这一流程将使行业受益,通过创建更优秀的模型。
蒸馏:小型模型也能强大
-
我们证明了大型模型的推理模式可以蒸馏到小型模型中,从而比在小型模型上通过 RL 发现的推理模式表现更好。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更优秀的小型模型。
-
使用 DeepSeek-R1 生成的推理数据,我们微调了几个在研究社区广泛使用的密集模型。评估结果表明,蒸馏后的小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超越了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上取得了 72.6% 的成绩,在 MATH-500 上取得了 94.3% 的成绩,在 LiveCodeBench 上取得了 57.2% 的成绩。这些结果显著超越了之前的开源模型,与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的蒸馏 1.5B、7B、8B、14B、32B 和 70B 的模型。
1.2 评估结果总结
-
推理任务:(1)DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217。在 MATH-500 上,它取得了 97.3% 的优异成绩,与 OpenAI-o1-1217 相当,并显著超越了其他模型。(2)在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,在 Codeforces 上取得了 2,029 的 Elo 评分,超过了比赛中 96.3% 的人类参与者。对于工程相关任务,DeepSeek-R1 略微优于 DeepSeek-V3,这可能有助于开发者在实际任务中应用。
-
知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了显著优于 DeepSeek-V3 的成绩,分别为 90.8%、84.0% 和 71.5%。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。类似的趋势在 OpenAI-o1 超越 4o 的基准测试中也有所观察。
-
其他:DeepSeek-R1 在包括创意写作、一般问答、编辑、摘要等广泛任务中表现出色。它在 AlpacaEval 2.0 上取得了 87.6% 的长度控制胜率,在 ArenaHard 上取得了 92.3% 的胜率,展示了其智能处理非考试导向查询的强大能力。此外,Dee