DeepEP,Distributed Expert Parallel Communication Library,是为混合专家MOE与并行专家EP量身定制(tailored)的通信库(communication library)。
![]() | 6257 |
![]() | 464 |
主要特点
-
高效通信架构:DeepEP支持节点内与跨节点的全对全通信优化,兼容NVLink和RDMA(远程直接内存访问)技术。
-
节点内通信:通过NVLink实现高达160 GB/s的带宽,减少GPU间的数据传输延迟;
-
跨节点通信:利用RDMA网络(如InfiniBand或RoCE)绕过CPU,直接访问远程GPU内存,降低协议栈开销。
-
-
多精度计算与调度优化:DeepEP原生支持FP8低精度运算,相比传统的FP16或BF16格式,FP8可将显存占用和带宽需求降低50%,同时保持模型精度。这一特性尤其适用于大规模预训练场景,显著降低计算资源消耗。此外,其调度器支持动态切换精度模式,适应不同任务需求。
-
双模式内核设计
-
高吞吐量内核:面向训练和推理预填充阶段,通过批量处理数据最大化吞吐量。在H800 GPU测试中,结合NVLink与InfiniBand CX7网卡(50 GB/s带宽),DeepEP在4096 tokens/批次的预训练任务中展现了显著的性能优势。
-
低延迟内核:针对推理解码场景,采用纯RDMA通信并引入自适应路由技术,最小化端到端延迟。测试显示,在128 tokens/批次的推理任务中,延迟较传统方案降低30%以上。
-
-
计算-通信重叠机制:通过基于Hook的异步通信设计,DeepEP实现了计算与通信的无缝重叠。该方法不占用SM资源,允许GPU在执行计算任务的同时处理数据传输,避免了传统同步通信导致的资源闲置。