DeepSeek 技术重点分析_deepseek 改进点-优快云博客

本文链接：https://blog.youkuaiyun.com/chhandsome/article/details/145455317

版本	主要特点	训练方式	主要改进点	MoE 结构
DeepSeek-V1	基础 Transformer	监督微调 (SFT)	传统 Dense 计算，计算量较大	❌ 无 MoE
DeepSeek-Coder	代码优化模型	SFT + RLHF	增强代码能力，在 Codeforces 上表现强	❌ 无 MoE
DeepSeek-V2	初次引入 MoE	SFT + RL	采用 4E2A MoE，提高计算效率	✅ 4E2A (4 专家，激活 2)
DeepSeek-V3	增强推理能力	SFT + RL	采用 8E2A MoE，增强数学 & 代码能力	✅ 8E2A
DeepSeek-R1-Zero	纯强化学习训练	纯 RL (GRPO)	不依赖监督微调 (SFT)，完全使用 RL 训练	✅ 8E2A + RL
DeepSeek-R1	强化学习优化推理	纯 RL (GRPO)	进一步优化 MoE，推理能力接近 OpenAI o1-1217	✅ 8E2A + RL

📌 示例：DeepSeek-R1 如何优化推理能力？

训练初期：

输入：数学问题 "计算 √(a - √(a + x)) = x"
选中专家：Expert 1 & Expert 3
输出：答案错误

训练后（RL 过程优化专家选择）：

输入：相同数学问题
选中专家：Expert 3 & Expert 5
输出：答案正确，提高奖励

训练阶段	训练方法	主要目标
第一阶段（DeepSeek-R1-Zero）	纯 RL (GRPO)	直接在 DeepSeek-V3 基础上进行强化学习，不依赖监督微调
第二阶段	结合冷启动数据	提高模型的可读性和任务泛化能力
第三阶段	拒绝采样 + SFT	筛选最优推理路径，并强化模型的通用能力
第四阶段	知识蒸馏	让小模型学习大模型的推理能力，提高小模型的性能

📌 示例：DeepSeek-R1 训练过程

第一阶段：DeepSeek-R1-Zero 纯 RL 训练

输入：复杂数学问题 "求解 𝑥³ - 3𝑥² + 4 = 0"
初始专家选择：Expert 2 & Expert 4（结果错误）

第二阶段：加入冷启动数据优化

训练数据：来自人工标注的高质量数学推理过程
改进专家选择：Expert 3 & Expert 5（结果更优）

第三阶段：拒绝采样 + SFT

从多个推理路径中选择最优路径，确保答案准确率

第四阶段：知识蒸馏

让小模型 7B 学习 37B 的推理策略，提高小模型性能

📌 Group Relative Policy Optimization (GRPO) 如何工作？

📌 示例：GRPO 在 DeepSeek-R1 的应用

训练初期（未使用 GRPO）

输入：“计算 135+246 需要多少步？”
选中专家：Expert 1 & Expert 2
输出：答案错误

训练后（GRPO 介入优化）

输入：“计算 135+246 需要多少步？”
选中专家：Expert 3 & Expert 5（数学任务专家）
输出：正确答案，并提供详细推理过程。

📌 示例：Gating Network vs 强化学习优化 vs GRPO

Gating Network（DeepSeek-V3）

输入：“求 𝑥 的平方根”
选中专家：Expert 1 & Expert 3（数学任务专家）

强化学习优化（DeepSeek-R1）

输入：“解 𝑎𝑥² + 𝑏𝑥 + 𝑐 = 0，考虑边界条件”
选中专家：Expert 3 & Expert 5（数学任务专家，经过 RL 训练强化）

GRPO 进一步优化（DeepSeek-R1 高级版本）

输入：“求解 𝑎𝑥³ + 𝑏𝑥² + 𝑐𝑥 + 𝑑 = 0”
选中专家：Expert 3 & Expert 7（结合最优专家，确保复杂问题解答正确）

✅ 增加专家数量（如 16E2A），提升任务适应能力。 ✅ 改进 Gating Network，使其更加智能化。 ✅ 优化 RL 训练方式，结合 GRPO，使 MoE 选择更加精准，提高长文本推理能力。

DeepSeek 通过 MoE + GRPO 强化学习 的结合，在推理能力上达到了接近 OpenAI 的水平 🚀。