DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日发布的混合专家(MoE)语言模型。以下是关于它的详细介绍:
### 技术架构
- **基本架构**:基于Transformer框架搭建,采用多头潜在注意力(MLA)和DeepSeek MoE技术。MLA对注意力的键和值进行低秩联合压缩,减少键值缓存,对注意力查询也进行低秩压缩,降低训练时的激活内存。DeepSeek MoE用在Feed-Forward Networks(FFNs)上,采用更细粒度的专家,设置共享专家,根据不同的专家和输入进行合理的加权计算。
- **负载均衡策略**:采用无辅助损失的负载均衡策略,给每个专家加偏置项,根据专家负载情况实时调整任务分配,还添加互补的序列级平衡损失,防止单个序列内出现极端不平衡。
- **多令牌预测**:具有多令牌预测(MTP)技能,用d个顺序模块来预测d个额外的词,预测时保持完整的因果链,训练时计算MTP损失,推理时可用于投机解码以提高生成速度。
### 基础设施
- **计算集群**:训练集群配备2048块NVIDIA H800 GPU,每个节点有8块GPU,通过NVLink和NVSwitch连接,不同节点之间通过Infiniband(IB)互连,实现高效通信。
- **训练框架**:采用16路管道并行(PP)、64路专家并行(EP)和Zero-1数据并行(DP)。通过Dual Pipe算法解决传统PP方法的“流水线气泡”问题,EP跨度为8个节点并开发了高效的跨节点全对全通信内核,充分利用IB和NVLink的带宽。
- **FP8训练**:引入FP8混合精度框架,在保证计算精度的同时,大幅度地降低了内存占用与计算成本,通过优化模型的算法与数据表示方式,在训练中以更低的精度运算而不牺牲绝对性能。
### 模型参数 拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。
### 性能优势
- **知识类任务**:在MMLU、GPQA等任务中,表现接近Claude-3.5-Sonnet-1022。在中文知识问答如