刚刚!DeepSeek开源DeepEP,GPU通信加速器,专为MoE设计!

 Datawhale分享 

开源周:Day 02,编辑:Datawhale

信息来源|X,机器之心,APPSO

上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。

昨天,他们开源了第一个代码库 ——FlashMLA,一款用于 Hopper GPU 的高效型 MLA 解码核。

就在刚刚,DeepSeek 第二天的开源项目 DeepEP 正式发布。

5040959c8c3a6e64933c20249fd4c4c2.png

DeepSeek 官方在 X 平台发文称:

「很高兴向大家介绍 DeepEP——首个专为 MoE(专家混合)模型训练和推理打造的开源 EP 通信库。

✅ 高效优化的全对全(all-to-all)通信
✅ 支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA
✅ 训练与推理预填充(prefilling)阶段的高吞吐率计算核
✅ 推理解码(decoding)阶段的低延迟计算核
✅ 原生支持 FP8 数据调度
✅ 灵活的 GPU 资源控制,实现计算与通信的重叠处理」

短短发布 1 个多小时,Stars 数已接近 2k。

51f51a209585ad686f1ecbd681e5d877.png

项目地址:https://github.com/deepseek-ai/DeepEP

接下来,就让我们看下这个开源项目的核心内容。

据介绍,DeepEP 是专为专家混合(MoE)和专家并行(EP) 设计的通信库,提供高吞吐、低延迟的全对全(all-to-all)GPU 计算核,也被称为 MoE dispatch 和 MoE combine。

此外,该库还支持包括 FP8 在内的低精度计算操作。

说人话就是,DeepEP 是 MoE 模型的「通信管家」,通过软硬件协同优化,让专家之间的数据传递又快又省资源,大幅提升训练和推理效率。

另外,DeepEP 为支持 DeepSeek-V3 论文中的组限门控(group-limited gating) 算法,开发了专门的计算模块,这些模块能够高效处理不同网络连接之间的数据传输,比如从 GPU 之间的 NVLink 连接传输到服务器之间的 RDMA 连接。

DeepEP 提供了两种主要类型的计算模块。

一种是高吞吐量模块,它们在训练和推理预填充阶段表现出色,并且可以灵活调整 GPU 处理器资源;另一种是专为推理解码阶段设计的低延迟模块,完全基于 RDMA 技术,能够最大限度减少响应时间。

DeepEP 性能如何?

具有 NVLink 和 RDMA forwarding 的常规模块

DeepSeek 在 H800 上测试常规内核(NVLink 最大带宽约 160 GB/s),每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约 50 GB/s)。他们遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,7168 隐藏维度,top-4 组,top-8 专家,FP8 分发和 BF16 合并)。

图片

具有纯 RDMA 的低延迟模块

DeepSeek 在 H800 上测试低延迟模块,每个 H800 连接到一个 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约 50 GB/s)。他们遵循典型的 DeepSeek-V3/R1 生产设置(每批次 128 个 token,7168 隐藏维度,top-8 专家,FP8 分发和 BF16 合并)。

图片

项目地址:https://github.com/deepseek-ai/DeepEP

图片一起“赞”三连

### 配置和使用GPUDeepSeek中的方法 对于希望利用GPU加速来提升DeepSeek模型性能的用户来说,配置过程涉及几个重要步骤。确保环境满足最低硬件需求是首要条件之一,特别是针对GPU显存的要求[^2]。 #### 安装必要的依赖项和支持软件 为了使DeepSeek能够识别并有效利用GPU资源,在安装过程中需确认已正确设置CUDA Toolkit以及cuDNN库。这些工具由NVIDIA提供,专门用于优化深度学习框架下的计算任务效率。通常情况下,当通过包管理器如conda或pip安装PyTorch或其他支持GPU运算的机器学习库时,可以选择带有`cuda`标签的版本以简化此流程。 #### 设置环境变量 有时可能还需要调整一些环境变量以便更好地适配特定系统的配置。例如,可以通过修改`.bashrc`文件(Linux/MacOS)或者创建批处理脚本(Windows),向PATH中添加CUDA bin目录路径,并设定LD_LIBRARY_PATH指向相应的lib64位置。 #### 使用Ollama进行模型部署 具体到DeepSeek系列模型的实际应用上,借助于Ollama平台可以极大地方便用户的操作体验。按照官方指南说明,进入指定页面选择合适的预训练权重下载链接之后,可以直接获取适用于不同规模数据集训练后的模型实例。对于拥有适当规格GPU设备的情况而言,推荐选用较大尺寸的变体比如14B参数量级别的版本,因为这类大型网络结构往往能在更复杂的场景下展现出更好的泛化能力。 ```powershell # PowerShell命令行示例:启动具有GPU支持的DeepSeek-R1 14B模型 ollama run deepseek-r1:14b ``` #### 调整GPU相关参数 考虑到实际可用硬件资源的不同,合理调节某些关键性的超参数同样至关重要。比如,对于配备较低容量VRAM(视频随机访问存储器)的图形处理器来说,适当降低batch size大小可以帮助缓解潜在溢出风险;而像offloading机制这样的高级特性,则允许部分张量暂时移至主机RAM从而腾出更多空间给更重要的中间结果保存。根据经验分享,8GB VRAM环境下将offload阈值设为约7.5是一个较为理想的平衡点[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值