完整版请移步至A-lab页面查看:案例验证:分析NCCL-Tests运行日志优化Scale-Out网络拓扑 - 星融元Asterfusion
背景:All-reduce 和 Ring 算法
GPU并行计算中需要大规模地在计算节点之间同步参数梯度,产生了大量的集合通信流量。为了优化集合通信性能,业界开发了不同的集合通信库(xCCL),其核心都是实现 All-Reduce,这也是分布式训练最主要的通信方式。

LLM训练中的 All Reduce 操作一般分为三个步骤:
- 把每个节点的数据切分成N份;
- 通过reduce-scatter,让每个节点都得到1/N的完整数据块;
- 通过all-gather,让所有节点的每个1/N数据块都变得完整
基于这种流量模式,Ring算法是目前实现该操作最常见的基础算法之一。


最低0.47元/天 解锁文章






