DeepSeek 技术重点分析

1. DeepSeek 模型发展历程

版本主要特点训练方式主要改进点MoE 结构
DeepSeek-V1基础 Transformer监督微调 (SFT)传统 Dense 计算,计算量较大❌ 无 MoE
DeepSeek-Coder代码优化模型SFT + RLHF增强代码能力,在 Codeforces 上表现强❌ 无 MoE
DeepSeek-V2初次引入 MoESFT + RL采用 4E2A MoE,提高计算效率✅ 4E2A (4 专家,激活 2)
DeepSeek-V3增强推理能力SFT + RL采用 8E2A MoE,增强数学 & 代码能力✅ 8E2A
DeepSeek-R1-Zero纯强化学习训练纯 RL (GRPO)不依赖监督微调 (SFT),完全使用 RL 训练✅ 8E2A + RL
DeepSeek-R1强化学习优化推理纯 RL (GRPO)进一步优化 MoE,推理能力接近 OpenAI o1-1217✅ 8E2A + RL

📌 示例:DeepSeek-R1 如何优化推理能力?

  • 训练初期:

    输入:数学问题 "计算 √(a - √(a + x)) = x"
    选中专家:Expert 1 & Expert 3
    输出:答案错误
  • 训练后(RL 过程优化专家选择):

    输入:相同数学问题
    选中专家:Expert 3 & Expert 5
    输出:答案正确,提高奖励

2. DeepSeek-R1 训练流程

训练阶段训练方法主要目标
第一阶段(DeepSeek-R1-Zero)纯 RL (GRPO)直接在 DeepSeek-V3 基础上进行强化学习,不依赖监督微调
第二阶段结合冷启动数据提高模型的可读性和任务泛化能力
第三阶段拒绝采样 + SFT筛选最优推理路径,并强化模型的通用能力
第四阶段知识蒸馏让小模型学习大模型的推理能力,提高小模型的性能

📌 示例:DeepSeek-R1 训练过程

  • 第一阶段:DeepSeek-R1-Zero 纯 RL 训练

    输入:复杂数学问题 "求解 𝑥³ - 3𝑥² + 4 = 0"
    初始专家选择:Expert 2 & Expert 4(结果错误)
  • 第二阶段:加入冷启动数据优化

    训练数据:来自人工标注的高质量数学推理过程
    改进专家选择:Expert 3 & Expert 5(结果更优)
  • 第三阶段:拒绝采样 + SFT

    从多个推理路径中选择最优路径,确保答案准确率
  • 第四阶段:知识蒸馏

    让小模型 7B 学习 37B 的推理策略,提高小模型性能

3. MoE 机制的优化演进

版本MoE 机制激活参数量MoE 选择方式MoE 主要优化点
DeepSeek-V1无 MoE全部参数-计算成本高
DeepSeek-V24E2A MoE约 20BGating Network计算效率优化
DeepSeek-V38E2A MoE37BGating Network推理能力提升
DeepSeek-R18E2A MoE + RL37BGating Network + RL 优化任务自适应 + GRPO

📌 Group Relative Policy Optimization (GRPO) 如何工作?

  • 采用 相对排名机制,每次生成多个答案并选择最优方案。

  • 计算不同答案的相对优势,强化最优解。

  • 使 MoE 选择更精准,提高模型推理能力。

📌 示例:GRPO 在 DeepSeek-R1 的应用

  • 训练初期(未使用 GRPO)

    输入:“计算 135+246 需要多少步?”
    选中专家:Expert 1 & Expert 2
    输出:答案错误
  • 训练后(GRPO 介入优化)

    输入:“计算 135+246 需要多少步?”
    选中专家:Expert 3 & Expert 5(数学任务专家)
    输出:正确答案,并提供详细推理过程。

4. Gating Network vs 强化学习(RL)优化专家选择

机制作用是否动态变化计算复杂度适用场景
Gating Network根据输入选择专家❌(训练后固定)低(简单 MLP)标准 MoE 推理
强化学习优化 MoE让某些专家更擅长特定任务✅(随着训练进化)高(训练阶段有 RL 计算)复杂任务(数学、代码)
GRPO 训练 MoE通过相对排名优化专家选择✅(不断进化)高(对比多个答案)高级推理任务

📌 示例:Gating Network vs 强化学习优化 vs GRPO

  • Gating Network(DeepSeek-V3)

    输入:“求 𝑥 的平方根”
    选中专家:Expert 1 & Expert 3(数学任务专家)
  • 强化学习优化(DeepSeek-R1)

    输入:“解 𝑎𝑥² + 𝑏𝑥 + 𝑐 = 0,考虑边界条件”
    选中专家:Expert 3 & Expert 5(数学任务专家,经过 RL 训练强化)
  • GRPO 进一步优化(DeepSeek-R1 高级版本)

    输入:“求解 𝑎𝑥³ + 𝑏𝑥² + 𝑐𝑥 + 𝑑 = 0”
    选中专家:Expert 3 & Expert 7(结合最优专家,确保复杂问题解答正确)

5. DeepSeek MoE 机制的未来方向

增加专家数量(如 16E2A),提升任务适应能力。 ✅ 改进 Gating Network,使其更加智能化。优化 RL 训练方式,结合 GRPO,使 MoE 选择更加精准,提高长文本推理能力。

DeepSeek 通过 MoE + GRPO 强化学习 的结合,在推理能力上达到了接近 OpenAI 的水平 🚀。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值