Pytorch分布式训练

最新推荐文章于 2024-04-15 09:31:07 发布

原创

最新推荐文章于 2024-04-15 09:31:07 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #神经网络 #jvm #java

本文介绍了Pytorch中的DistributedDataParallel方法，用于实现单机多卡训练。与DataParallel相比，DistributedDataParallel利用多进程避免了Python的GIL限制，提高了训练效率。通过六步实现单机多卡训练，包括导入包、设置local_rank、包装Dataloader、使用DDP包装模型、指定GPU运行和启动训练。在使用DistributedDataParallel时需要注意多进程中的打印、模型保存等问题，需要通过get_rank()判断进程号来避免冲突。

用单机单卡训练模型的时代已经过去，单机多卡已经成为主流配置。如何最大化发挥多卡的作用呢？本文介绍Pytorch中的DistributedDataParallel方法。

1. DataParallel

其实Pytorch早就有数据并行的工具DataParallel，它是通过单进程多线程的方式实现数据并行的。

简单来说，DataParallel有一个参数服务器的概念，参数服务器所在线程会接受其他线程传回来的梯度与参数，整合后进行参数更新，再将更新后的参数发回给其他线程，这里有一个单对多的双向传输。因为Python语言有GIL限制，所以这种方式并不高效，比方说实际上4卡可能只有2～3倍的提速。

2. DistributedDataParallel

Pytorch目前提供了更加高效的实现，也就是DistributedDataParallel。从命名上比DataParallel多了一个分布式的概念。首先 DistributedDataParallel是能够实现多机多卡训练的，但考虑到大部分的用户并没有多机多卡的环境，本篇博文主要介绍单机多卡的用法。

从原理上来说，DistributedDataParallel采用了多进程，避免了python多线程的效率低问题。一般来说，每个GPU都运行在一个单独的进程内，每个进程会独立计算梯度。

同时DistributedDataParallel抛弃了参数服务器中一对多的传输与同步问题，而是采用了环形的梯度传递，这里引用知乎上的图例。这种环形同步使得每个GPU只需要和自己上下游的GPU进行进程间的梯度传递，避免了参数服务器一对多时可能出现的信息阻塞。