DeepSeek-DeepEP – 专为混合专家模型打造的高效专家并行通信库

本文链接：https://blog.youkuaiyun.com/yuanmomoya/article/details/145862940

DeepEP 是由 DeepSeek 开源团队推出的首个专门用于混合专家模型（MoE）训练和推理的专家并行（EP）通信库。该库通过全对全（all-to-all）的 GPU 内核实现了高吞吐量与低延迟，支持节点内的 NVLink 通信以及节点间的 RDMA 协议。特别地，DeepEP 针对 DeepSeek-V3 中提出的组限制门控算法进行了深度优化，同时引入了 FP8 数据格式调度和基于 Hook 的通信与计算重叠技术，从而确保不占用 GPU 流多处理器（SM）的计算资源。推理解码阶段的低延迟内核表现尤为出色，其延迟低至 163 微秒。
系统要求：Hopper 架构 GPU、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+。

在这里插入图片描述

核心特性

高速通信内核
提供专为 MoE 中分发与合并操作设计的高吞吐量 GPU 内核，确保各节点之间数据交换高效稳定。
低精度计算支持
除了 BF16 格式，DeepEP 还支持 FP8 数据格式，有效提升计算效率，减少内存占用。
针对组限制门控的优化
为适配 DeepSeek-V3 中的组限制门控算法，DeepEP 在内核设计上实现了从 NVLink 到 RDMA 的非对称带宽调度，适用于训练与预填充推理任务。
极致低延迟推理解码
利用纯 RDMA 技术，针对推理解码场景实现了低延迟内核，确保响应时间低至 163 微秒。
通信与计算并行
采用 Hook 机制实现通信与计算的重叠调度，不干扰 GPU 计算核心，进一步提升整体效率。
灵活资源管理
支持用户自定义 SM 使用策略，以便在不同负载下实现资源的最优配置。
网络流量隔离
在 InfiniBand 网络环境下，通过虚拟通道（VL）实现流量隔离，避免不同任务间的干扰。

项目地址

Github 仓库：DeepEP on GitHub

性能亮点

在高性能硬件平台上，DeepEP 展示了出色的通信性能：

内节点通信（NVLink）
- 分发操作：瓶颈带宽高达 153 GB/s
- 合并操作：瓶颈带宽达到 158 GB/s
跨节点通信（RDMA）
- 分发与合并操作：瓶颈带宽分别在 43-47 GB/s 范围内
低延迟推理解码
- 当处理
  
  8 个专家
  
  时：
  - 分发延迟为 163 微秒
  - 合并延迟为 318 微秒
  - RDMA 带宽达到 46 GB/s
- 随着专家数量增至 256，延迟仅略有上升（分发约 194 微秒，合并约 360 微秒）
系统兼容性
- 完美支持 InfiniBand 环境，同时兼容 RDMA over Converged Ethernet (RoCE)
- 必须运行在 Hopper 架构 GPU 上，并依赖 Python 3.8+、CUDA 12.3+ 与 PyTorch 2.1+ 的生态