文章目录
**导读:**DeepSeek-R1 是近期发布的一款开源大模型,它将纯强化学习与多阶段训练策略相结合,大幅提升了模型的推理能力,并且提供了多种大小模型的蒸馏版本供社区使用。与传统依赖大规模监督数据(SFT)的方式不同,DeepSeek-R1 在如何让模型“自发”学会复杂推理层面,带来了新思路。本文将结合官方技术报告,系统介绍 DeepSeek-R1 的训练流程、创新点和实验结果,并讨论其对于大模型推理能力提升的意义。
1. 背景
近年来,随着硬件算力和数据规模的不断增长,基于 Transformer 架构的大型语言模型(LLM)如雨后春笋般涌现,展现了惊人的文本生成和对话能力。然而,在高级推理、复杂规划、数学与编程等任务上,许多模型依然只能停留在“表面关联”层面,缺乏真正的“深入推理”能力。
-
传统的做法:大量 SFT 数据
通常,研究人员会收集大规模带有思维链(Chain-of-Thought)或精细标注的监督数据,来教模型如何进行分步骤的推理。这些高质量标注数据往往非常昂贵,且难以覆盖真实世界中的各种推理场景。 -
RL 在推理任务中的潜力
强化学习(RL)近年来在游戏 AI、机器人控制等领域取得了长足进步,但在自然语言处理,尤其是对生成式大模型的全面提升方面,实践尚不算成熟。一些研究会借助奖励模型(RM)或过程奖励(PRM)来评估模型输出,但由于文本空间过于庞大,且难以实时、细粒度地评估中间推理步骤,导致这些方法极具挑战。
DeepSeek-R1 的创新点在于,它尝试用更灵活和“大尺度”的强化学习,在没有或极少量人工标注的情况下,引导模型学会深入的推理过程,并同时兼顾可读性与通用性。由于其提供了多阶段训练和小模型蒸馏版本,降低了学术与工业界的技术和资源门槛,在推动大语言模型的可落地性方面拥有重要意义。
2. DeepSeek-R1 训练流程
DeepSeek-R1 的训练并非一蹴而就,而是结合了多种思路:既有直接的强化学习探索,也有**在特定阶段进行监督微调(SFT)**以稳定训练和增强可读性。其核心包含下述环节。
2.1 DeepSeek-R1-Zero:纯强化学习
在 DeepSeek-R1 的所有变体中,DeepSeek-R1-Zero算是最具实验性、也最引人注目的一个。它旨在回答这样一个问题:
如果我们不给模型任何预先带思维链的监督数据,能否依靠纯强化学习让模型自动“学会”推理?
-
无 SFT 数据,直接上 RL
- 起点是一个基础语言模型(可能只做过通用预训练),然后直接在数学题、编程题等“可自动判定正确与否”的场景下,通过结果奖励来驱动模型学习。
- 不依赖人工标注的思维链或提示模板,充分体现了 RL 的探索性。
-
奖励设计
- 准确率奖励:只要模型给出的最终答案正确,就给予正向奖励。如果答案错误,则没有或给予负向奖励。这对于数学题、编程题尤其合适,因为它们具有客观唯一的正确答案。
- 格式奖励:团队希望模型输出中能够显式呈现出思维链,以便后续分析和人工干预,于是增加了额外格式奖励。例如,如果模型在特定标记对内写出推理轨迹,就可以获得一定奖励。
-
显著成果
- DeepSeek-R1-Z