刚刚！DeepSeek开源DeepEP，GPU通信加速器，专为MoE设计！

DeepSeek开源专为MoE设计的GPU通信加速器DeepEP

最新推荐文章于 2025-03-28 12:23:31 发布

转载最新推荐文章于 2025-03-28 12:23:31 发布 · 167 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247701931&idx=1&sn=0cb2b85ae0b441a9e65bc5b65ffa201d&chksm=e967a7e42b32b617f5187e67b022dafd57d69f470017faa1741e1f10613550e071c6cb81106f&scene=126&sessionid=0

Datawhale分享

开源周：Day 02，编辑：Datawhale

信息来源｜X，机器之心，APPSO

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。

昨天，他们开源了第一个代码库 ——FlashMLA，一款用于 Hopper GPU 的高效型 MLA 解码核。

就在刚刚，DeepSeek 第二天的开源项目 DeepEP 正式发布。

DeepSeek 官方在 X 平台发文称：

「很高兴向大家介绍 DeepEP——首个专为 MoE（专家混合）模型训练和推理打造的开源 EP 通信库。

✅ 高效优化的全对全（all-to-all）通信
✅ 支持节点内（intranode）和节点间（internode）通信，兼容 NVLink 和 RDMA
✅ 训练与推理预填充（prefilling）阶段的高吞吐率计算核
✅ 推理解码（decoding）阶段的低延迟计算核
✅ 原生支持 FP8 数据调度
✅ 灵活的 GPU 资源控制，实现计算与通信的重叠处理」

短短发布 1 个多小时，Stars 数已接近 2k。

项目地址：https://github.com/deepseek-ai/DeepEP

接下来，就让我们看下这个开源项目的核心内容。

据介绍，DeepEP 是专为专家混合（MoE）和专家并行（EP）设计的通信库，提供高吞吐、低延迟的全对全（all-to-all）GPU 计算核，也被称为 MoE dispatch 和 MoE combine。

此外，该库还支持包括 FP8 在内的低精度计算操作。

说人话就是，DeepEP 是 MoE 模型的「通信管家」，通过软硬件协同优化，让专家之间的数据传递又快又省资源，大幅提升训练和推理效率。

另外，DeepEP 为支持 DeepSeek-V3 论文中的组限门控（group-limited gating）算法，开发了专门的计算模块，这些模块能够高效处理不同网络连接之间的数据传输，比如从 GPU 之间的 NVLink 连接传输到服务器之间的 RDMA 连接。

DeepEP 提供了两种主要类型的计算模块。

一种是高吞吐量模块，它们在训练和推理预填充阶段表现出色，并且可以灵活调整 GPU 处理器资源；另一种是专为推理解码阶段设计的低延迟模块，完全基于 RDMA 技术，能够最大限度减少响应时间。

DeepEP 性能如何？

具有 NVLink 和 RDMA forwarding 的常规模块

DeepSeek 在 H800 上测试常规内核（NVLink 最大带宽约 160 GB/s），每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡（最大带宽约 50 GB/s）。他们遵循 DeepSeek-V3/R1 预训练设置（每批次 4096 个 token，7168 隐藏维度，top-4 组，top-8 专家，FP8 分发和 BF16 合并）。

具有纯 RDMA 的低延迟模块

DeepSeek 在 H800 上测试低延迟模块，每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡（最大带宽约 50 GB/s）。他们遵循典型的 DeepSeek-V3/R1 生产设置（每批次 128 个 token，7168 隐藏维度，top-8 专家，FP8 分发和 BF16 合并）。