深度学习笔记（8）——单机多卡分布式训练

原创

已于 2023-08-29 21:53:18 修改 · 1.7k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习

于 2023-08-29 10:49:31 首次发布

本文围绕深度学习单机多卡分布式训练展开，介绍了Pytorch中DataParallel和DistributedDataParallel两种分布式训练方式，阐述多卡训练原理，区分数据并行与模型并行，详细说明了DDP代码操作步骤，最后给出启动多卡训练的命令。

深度学习笔记（8）——单机多卡分布式训练

由于chat GPT3.0的出现，开始研究大模型。而大模型需要使用大算力，故而在单卡的条件下训练模型很难快速高效完成训练，所以需要使用单机多卡并行的方式运行训练脚本，本文演示如何通过单机多卡DDP并行的方式微调完成下游任务。

1. 两种分布式训练方式

Pytorch 分布式目前只支持 Linux。实现程序并行主要有 DataParallel 和 DistributedDataParallel 两种方式：

DataParallel (DP)：实现简单，代码量较少，启动速度快一点。但速度较慢，且存在负载不均衡的问题。单进程，多线程。主卡显存占用比其他卡会多很多。不支持 Apex 的混合精度训练。是Pytorch官方很久之前给的一种方案。受 Python GIL 的限制，DP的操作原理是将一个batchsize的输入数据均分到多个GPU上分别计算（此处注意，batchsize要大于GPU个数才能划分）。

DistributedDataParallel (DDP)：All-Reduce模式，本意是用来分布式训练（多机多卡），但是也可用于单机多卡。配置稍复杂。多进程。数据分配较均衡。是新一代的多卡训练方法。使用 torch.distributed 库实现并行。torch.distributed 库提供分布式支持，包括 GPU 和 CPU 的分布式训练支持，该库提供了一种类似 MPI 的接口，用于跨多机器网络交换张量数据。它支持几种不同的后端和初始化方法。DDP通过Ring-Reduce的数据交换方法提高了通讯效率，并通过启动多个进程的方式减轻Python GIL的限制，从而提高训练速度。

2.多卡训练的原理

1.将模型在各个GPU上复制一份；
2.将总的 batch 数据等分到不同的GPU上进行计算（shuffle 顺序打乱），每个进程都从磁盘加载其自己的数据；
3. 在模型训练时，损失函数的前向传播和计算在每个 GPU 上独立执行，因此，不需要收集网络输出。在反向传播期间，各个进程通过一种叫 Ring-Reduce 的方法与其他进程通讯，交换各自的梯度，从而获得所有进程的平均梯度；然后用这个值在所有 GPU
上执行梯度下降，从而每个 GPU 在反向传播结束时最终得到平均梯度的相同副本；
4.各个进程用平均后的梯度更新自己的参数，因为各个进程的初始参数、更新梯度是一致的，所以更新后的参数也是完全相同的。