1. DeepSeek 模型发展历程
版本 | 主要特点 | 训练方式 | 主要改进点 | MoE 结构 |
---|---|---|---|---|
DeepSeek-V1 | 基础 Transformer | 监督微调 (SFT) | 传统 Dense 计算,计算量较大 | ❌ 无 MoE |
DeepSeek-Coder | 代码优化模型 | SFT + RLHF | 增强代码能力,在 Codeforces 上表现强 | ❌ 无 MoE |
DeepSeek-V2 | 初次引入 MoE | SFT + RL | 采用 4E2A MoE,提高计算效率 | ✅ 4E2A (4 专家,激活 2) |
DeepSeek-V3 | 增强推理能力 | SFT + RL | 采用 8E2A MoE,增强数学 & 代码能力 | ✅ 8E2A |
DeepSeek-R1-Zero | 纯强化学习训练 | 纯 RL (GRPO) | 不依赖监督微调 (SFT),完全使用 RL 训练 | ✅ 8E2A + RL |
DeepSeek-R1 | 强化学习优化推理 | 纯 RL (GRPO) | 进一步优化 MoE,推理能力接近 OpenAI o1-1217 | ✅ 8E2A + RL |
📌 示例:DeepSeek-R1 如何优化推理能力?
-
训练初期:
输入:数学问题 "计算 √(a - √(a + x)) = x" 选中专家:Expert 1 & Expert 3 输出:答案错误
-
训练后(RL 过程优化专家选择):
输入:相同数学问题 选中专家:Expert 3 & Expert 5 输出:答案正确,提高奖励
2. DeepSeek-R1 训练流程
训练阶段 | 训练方法 | 主要目标 |
第一阶段(DeepSeek-R1-Zero) | 纯 RL (GRPO) | 直接在 DeepSeek-V3 基础上进行强化学习,不依赖监督微调 |
第二阶段 | 结合冷启动数据 | 提高模型的可读性和任务泛化能力 |
第三阶段 | 拒绝采样 + SFT | 筛选最优推理路径,并强化模型的通用能力 |
第四阶段 | 知识蒸馏 | 让小模型学习大模型的推理能力,提高小模型的性能 |
📌 示例:DeepSeek-R1 训练过程
-
第一阶段:DeepSeek-R1-Zero 纯 RL 训练
输入:复杂数学问题 "求解 𝑥³ - 3𝑥² + 4 = 0" 初始专家选择:Expert 2 & Expert 4(结果错误)
-
第二阶段:加入冷启动数据优化
训练数据:来自人工标注的高质量数学推理过程 改进专家选择:Expert 3 & Expert 5(结果更优)
-
第三阶段:拒绝采样 + SFT
从多个推理路径中选择最优路径,确保答案准确率
-
第四阶段:知识蒸馏
让小模型 7B 学习 37B 的推理策略,提高小模型性能
3. MoE 机制的优化演进
版本 | MoE 机制 | 激活参数量 | MoE 选择方式 | MoE 主要优化点 |
DeepSeek-V1 | 无 MoE | 全部参数 | - | 计算成本高 |
DeepSeek-V2 | 4E2A MoE | 约 20B | Gating Network | 计算效率优化 |
DeepSeek-V3 | 8E2A MoE | 37B | Gating Network | 推理能力提升 |
DeepSeek-R1 | 8E2A MoE + RL | 37B | Gating Network + RL 优化 | 任务自适应 + GRPO |
📌 Group Relative Policy Optimization (GRPO) 如何工作?
-
采用 相对排名机制,每次生成多个答案并选择最优方案。
-
计算不同答案的相对优势,强化最优解。
-
使 MoE 选择更精准,提高模型推理能力。
📌 示例:GRPO 在 DeepSeek-R1 的应用
-
训练初期(未使用 GRPO)
输入:“计算 135+246 需要多少步?” 选中专家:Expert 1 & Expert 2 输出:答案错误
-
训练后(GRPO 介入优化)
输入:“计算 135+246 需要多少步?” 选中专家:Expert 3 & Expert 5(数学任务专家) 输出:正确答案,并提供详细推理过程。
4. Gating Network vs 强化学习(RL)优化专家选择
机制 | 作用 | 是否动态变化 | 计算复杂度 | 适用场景 |
Gating Network | 根据输入选择专家 | ❌(训练后固定) | 低(简单 MLP) | 标准 MoE 推理 |
强化学习优化 MoE | 让某些专家更擅长特定任务 | ✅(随着训练进化) | 高(训练阶段有 RL 计算) | 复杂任务(数学、代码) |
GRPO 训练 MoE | 通过相对排名优化专家选择 | ✅(不断进化) | 高(对比多个答案) | 高级推理任务 |
📌 示例:Gating Network vs 强化学习优化 vs GRPO
-
Gating Network(DeepSeek-V3)
输入:“求 𝑥 的平方根” 选中专家:Expert 1 & Expert 3(数学任务专家)
-
强化学习优化(DeepSeek-R1)
输入:“解 𝑎𝑥² + 𝑏𝑥 + 𝑐 = 0,考虑边界条件” 选中专家:Expert 3 & Expert 5(数学任务专家,经过 RL 训练强化)
-
GRPO 进一步优化(DeepSeek-R1 高级版本)
输入:“求解 𝑎𝑥³ + 𝑏𝑥² + 𝑐𝑥 + 𝑑 = 0” 选中专家:Expert 3 & Expert 7(结合最优专家,确保复杂问题解答正确)
5. DeepSeek MoE 机制的未来方向
✅ 增加专家数量(如 16E2A),提升任务适应能力。 ✅ 改进 Gating Network,使其更加智能化。 ✅ 优化 RL 训练方式,结合 GRPO,使 MoE 选择更加精准,提高长文本推理能力。
DeepSeek 通过 MoE + GRPO 强化学习 的结合,在推理能力上达到了接近 OpenAI 的水平 🚀。