DeepSeek-DeepEP – 专为混合专家模型打造的高效专家并行通信库

清华大学出品《DeepSeek:从入门到精通》分享

DeepEP 是由 DeepSeek 开源团队推出的首个专门用于混合专家模型(MoE)训练和推理的专家并行(EP)通信库。该库通过全对全(all-to-all)的 GPU 内核实现了高吞吐量与低延迟,支持节点内的 NVLink 通信以及节点间的 RDMA 协议。特别地,DeepEP 针对 DeepSeek-V3 中提出的组限制门控算法进行了深度优化,同时引入了 FP8 数据格式调度和基于 Hook 的通信与计算重叠技术,从而确保不占用 GPU 流多处理器(SM)的计算资源。推理解码阶段的低延迟内核表现尤为出色,其延迟低至 163 微秒。
系统要求:Hopper 架构 GPU、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+。

在这里插入图片描述


核心特性

  • 高速通信内核
    提供专为 MoE 中分发与合并操作设计的高吞吐量 GPU 内核,确保各节点之间数据交换高效稳定。
  • 低精度计算支持
    除了 BF16 格式,DeepEP 还支持 FP8 数据格式,有效提升计算效率,减少内存占用。
  • 针对组限制门控的优化
    为适配 DeepSeek-V3 中的组限制门控算法,DeepEP 在内核设计上实现了从 NVLink 到 RDMA 的非对称带宽调度,适用于训练与预填充推理任务。
  • 极致低延迟推理解码
    利用纯 RDMA 技术,针对推理解码场景实现了低延迟内核,确保响应时间低至 163 微秒。
  • 通信与计算并行
    采用 Hook 机制实现通信与计算的重叠调度,不干扰 GPU 计算核心,进一步提升整体效率。
  • 灵活资源管理
    支持用户自定义 SM 使用策略,以便在不同负载下实现资源的最优配置。
  • 网络流量隔离
    在 InfiniBand 网络环境下,通过虚拟通道(VL)实现流量隔离,避免不同任务间的干扰。

项目地址


性能亮点

在高性能硬件平台上,DeepEP 展示了出色的通信性能:

  • 内节点通信(NVLink)

    • 分发操作:瓶颈带宽高达 153 GB/s
    • 合并操作:瓶颈带宽达到 158 GB/s
  • 跨节点通信(RDMA)

    • 分发与合并操作:瓶颈带宽分别在 43-47 GB/s 范围内
  • 低延迟推理解码

    • 当处理

      8 个专家

      时:

      • 分发延迟为 163 微秒
      • 合并延迟为 318 微秒
      • RDMA 带宽达到 46 GB/s
    • 随着专家数量增至 256,延迟仅略有上升(分发约 194 微秒,合并约 360 微秒

  • 系统兼容性

    • 完美支持 InfiniBand 环境,同时兼容 RDMA over Converged Ethernet (RoCE)
    • 必须运行在 Hopper 架构 GPU 上,并依赖 Python 3.8+、CUDA 12.3+ 与 PyTorch 2.1+ 的生态

系统与环境要求

硬件

  • GPU:必须使用支持 Hopper 架构的 GPU(如 H100、H800),未来版本可能会扩展至更多架构。
  • 通信设备:需要支持 GPUDirect RDMA 的硬件,具体可参照 NVSHMEM 的硬件规范。
  • 网络:节点内依赖 NVLink 进行数据交换,节点间则通过 RDMA 网络实现高效通信。

软件

  • Python 3.8 及以上版本
  • CUDA 12.3 及以上版本
  • PyTorch 2.1 及以上版本
  • 必须安装修改版 NVSHMEM,详细指南请参见相关文档。
  • 推荐使用 GDRCopy (v2.4+) 以实现低延迟 GPU 内存拷贝。

网络配置

  • 主要环境:测试在 InfiniBand 网络环境下,支持 RDMA over Converged Ethernet (RoCE)
  • 流量管理:利用虚拟通道(VL)实现流量隔离,确保不同数据流互不干扰。

其他注意事项

  • 在容器环境下,请确保宿主机已加载必要内核模块(如 gdrdrv)并正确安装相关 DEB 包。
  • 完成安装后,请配置环境变量(如 NVSHMEM_DIR),以便 DeepEP 正常运行。

典型应用场景

  • 大规模模型训练
    利用高效通信能力,加速混合专家模型(MoE)的训练流程,显著提升模型收敛速度。
  • 低延迟推理
    特别适用于对延迟要求极高的推理解码任务,提高在线服务响应能力。
  • 高性能计算
    支持 Hopper GPU 及高带宽网络环境,为各类科学计算和数据处理任务提供强有力的支撑。
  • 智能客服系统
    优化推理过程,使智能客服能更迅速地处理海量请求,提升用户体验。
  • 金融风控与自动化报告
    借助 DeepEP 加速数据处理和风险评估,助力金融行业实现高效的决策支持和报告生成。

通过 DeepEP 的全面优化与强大功能,混合专家模型的训练和推理工作流将获得显著性能提升。如果你在寻找一款高性能、低延迟的通信解决方案,不妨试试 DeepEP。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@程序员小袁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值