目录
本周,DeepSeek-R1成为了头条新闻。因此,在这篇文章中,让我们深入了解DeepSeek-R1模型的本质及其内部工作原理。
首先,什么是DeepSeek-R1?
DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。
与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。
如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型在需要可解释结果的领域(如研究或复杂决策)中具有优势。
此外,该模型通过展示强化学习(RL)可以提高推理能力,挑战了行业对监督微调(SFT)的依赖。但是,除了我上面提到的内容,是什么让它革命性
的呢?
-
自主技能涌现: 与需要人工策划推理示例的GPT-4或Claude 3.5 Sonnet不同,
R1-Zero
通过纯RL开发了自我验证和多步规划等技能。 -
成本: 蒸馏后的7B模型以1/100的训练成本超越了GPT-4o。
-
开源: 完整发布模型权重和训练代码。
技术架构:
基础模型:
它建立在DeepSeek-V3-Base
模型之上,这是一个具有671B参数的混合专家模型(MoE = 集成多个专门模型或"专家"以更有效地解决复杂问题),具有以下特点:
-
16个专家网络: 每个都是专门针对数学、代码、逻辑等领域的子模型
-
动态激活: 通过学习路由,每个token激活37B参数
-
预训练: 跨52种语言和技术领域的4.8T(是的,万亿)个token,包括STEM论文、Github仓库等
R1变体:
模型 | 参数 | 训练方法 | 主要创新 |
---|---|---|---|
R1-Zero | 671B MoE | 纯RL(无SFT) | 自主推理能力发现 |
R1 | 671B MoE | 多阶段SFT+RL | 人类对齐的思维链生成 |
R1-Distill | 1.5B–70B | 基于R1输出的SFT | 成本效益高的部署 |