运行这个DeepSeek-V3需要的显存资源,我先去找更大的GPU VM去了…

一、DeepSeek-V3 的架构详解
1. 模型总体概述
DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模型,其核心参数配置如下:
-
模型层数 :61 层
-
隐藏层维度 :7168
-
前馈网络维度 :18432
-
注意力头数 :128
-
词汇表大小 :129280
-
最大位置嵌入 :163840
该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。

2. Mixture-of-Experts(MoE)架构
MoE 设置 :
-
MoE 层频率 :1(即每一层都是 MoE 层)
-
共享专家数 :1
-
路由专家数 :256
-
每个 Token 选择的专家数 :8
-
MoE 专家前馈网络维度 :2048
专家数量与分布 :
-
总 MoE 层数 :58 层(第 4 层至第 61 层)
-
每层专家总数 :257 个(1 个共享专家 + 256 个路由专家)
-
模型总专家数 :14,906 个(257 个专家 × 58 层)
活跃专家数量 :
-
每层活跃专家 :9 个(1 个共享专家 + 8 个路由专家)
-
整个模型的活跃专家 :522 个(9 个活跃专家 × 58 层)
MoE 架构的优势 :
-
计算效率高 :每个 Token 只需计算少量专家,降低了计算成本。
-
参数利用率高 :拥有巨大参数容量(总参数量 6,710 亿),但实际计算的激活参数仅约 370 亿。
-
专家专精化 :路由机制使得专家专注于特定特征,提高模型性能。
路由专家与共享专家的结合 :
-
路由专家(Routed Experts) :
-
选择性激活 :按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token。
-
专精化处理 :每个路由专家擅长处理特定类型的输入或特征,实现专精化。
DeepSeek-V3技术架构解析与性能评测

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



