DeepSeek-DeepEP通信(一)

部署运行你感兴趣的模型镜像

机器内通信

CUDA IPC(Inter-Process Communication)
定位:同一节点(单机)内多进程间的 GPU 内存共享。

核心功能:

允许不同 CUDA 进程直接访问彼此的 GPU 显存,无需通过主机内存复制。

使用 cudaIpcGetMemHandle 和 cudaIpcOpenMemHandle 等 API 创建和共享内存句柄。

特点:

低延迟:直接访问 GPU 显存,减少数据传输开销。

进程级隔离:需显式传递句柄并协调同步,适合紧密协作的多进程应用(如多进程推理服务)。

适用范围:单机多 GPU,例如共享数据的多个独立进程(如 MPI 进程)。

局限性:仅支持同一节点内通信,开发者需自行管理同步与一致性。

机器间通信

NVSHMEM(NVIDIA SHMEM)
定位:多 GPU/多节点的高性能通信库,基于 PGAS(分区全局地址空间) 模型。

核心功能:

提供全局地址空间,允许 GPU 直接读写其他 GPU 的显存(无论本地或远程)。

支持集合操作(Broadcast、Reduce)、原子操作、异步数据传输。

特点:

跨节点扩展:支持多节点集群,结合 NCCL 或 MPI 实现高效通信。

抽象层次高:隐藏底层通信细节(如 CUDA IPC 或 InfiniBand),简化分布式 GPU 编程。

适用场景:大规模并行计算(如 AI 训练、科学模拟),需多 GPU 协同作业。

优势:

减少数据移动,提升吞吐量。

提供类似共享内存的编程模型,降低分布式编程复杂度。

您可能感兴趣的与本文相关的镜像

PyTorch 2.9

PyTorch 2.9

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝鲸123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值