NCCL（NVIDIA Collective Communications Library，全称英伟达集体通信库）是 NVIDIA 专门为多 GPU 通信优化的库，用于加速分布式训练。

最新推荐文章于 2025-03-26 09:42:38 发布

背太阳的牧羊人

最新推荐文章于 2025-03-26 09:42:38 发布

阅读量643

点赞数 3

分类专栏：模型微调文章标签：分布式人工智能 python

本文链接：https://blog.youkuaiyun.com/u013565133/article/details/145455306

版权

51 篇文章

订阅专栏

NCCL（NVIDIA Collective Communications Library，全称 英伟达集体通信库）是 NVIDIA 专门为多 GPU 通信优化的库，用于加速 分布式训练。

在多 GPU 或多机训练时，不同的 GPU 需要 交换数据（如模型参数、梯度），而 NCCL 提供了一种 高效的通信方式，让多个 GPU 可以 高速同步，提高训练效率。

常见用途：

当你使用 torch.distributed 进行 分布式训练 时，你需要选择一个后端（backend），比如：

在 PyTorch 中初始化分布式训练：

import torch.distributed as dist

# 初始化 NCCL 后端
dist.init_process_group(backend="nccl", rank=0, world_size=2)

这表示：

假设你有 2 块 GPU，每块 GPU 计算不同的数据批次（Batch），但它们 共享相同的模型参数。
训练过程中，每块 GPU 会计算自己的梯度，并需要与其他 GPU 交换这些梯度，才能进行全局更新。

更快的 GPU-GPU 通信
- NCCL 直接在 GPU 之间传输数据（不经过 CPU），速度远超 gloo（CPU 传输）。
- 对于 NVLink 或 InfiniBand 的设备，NCCL 大幅提升带宽，让梯度同步更快。
优化 AllReduce 操作
- AllReduce 是分布式训练中的关键操作（用于梯度同步）。
- NCCL 针对 AllReduce 进行了优化，可以 并行传输数据，降低同步延迟。