PyTorch 1.0 中文文档：torch.distributed

最新推荐文章于 2025-09-16 16:47:27 发布

翻译最新推荐文章于 2025-09-16 16:47:27 发布 · 4.1w 阅读

228 篇文章

订阅专栏

本文详细介绍了PyTorch中支持的三种后端（Gloo、MPI、NCCL）的功能对比，并针对不同场景提供了后端选择的建议。无论是在CPU还是GPU环境下进行分布式训练，都能找到适合的后端方案。

部署运行你感兴趣的模型镜像

译者：univeryinli

torch.distributed 支持三个后端，每个后端具有不同的功能。下表显示哪些功能可用于CPU/CUDA张量。仅当用于构建PyTorch的实现支持时，MPI才支持CUDA。

后端	`gloo`	`mpi`	`nccl`
设备	CPU	GPU	CPU
—	—	—	—
发送	✓	✘	✓
接收	✓	✘	✓
广播	✓	✓	✓
all_reduce	✓	✓	✓
reduce	✓	✘	✓
all_gather	✓	✘	✓
收集	✓	✘	✓
分散	✓	✘	✓
屏障	✓	✘	✓

目前PyTorch分发版仅支持Linux。默认情况下，Gloo和NCCL后端构建并包含在PyTorch的分布之中（仅在使用CUDA构建时为NCCL）。MPI是一个可选的后端，只有从源代码构建PyTorch时才能包含它。（例如，在安装了MPI的主机上构建PyTorch）

在过去，我们经常被问到：“我应该使用哪个后端？”。

经验法则
- 使用NCCL后端进行分布式 GPU 训练。
- 使用Gloo后端进行分布式 CPU 训练。
具有InfiniBand互连的GPU主机
- 使用NCCL，因为它是目前唯一支持InfiniBand和GPUDirect的后端。
GPU主机与以太网互连
- 使用NCCL，因为它目前提供最佳的分布式GPU训练性能，特别是对于多进程单节点或多节点分布式训练。如果您遇到NCCL的任何问题，请使用Gloo作为后备选项。（请注意，Gloo目前运行速度比GPU的NCCL慢。）