关于深度学习中使用多卡GPU进行训练学习总结

最新推荐文章于 2025-05-02 11:16:31 发布

learning112358

最新推荐文章于 2025-05-02 11:16:31 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习神经网络 pytorch

本文链接：https://blog.youkuaiyun.com/learning5201/article/details/120271387

这篇博客介绍了如何在PyTorch中利用nn.parallel.scatter进行数据分布，以及allreduce函数在多GPU间的向量相加操作。详细阐述了数据并行（DataParallel和DistributedDataParallel）与模型并行的方式，包括单机多卡和多机多卡的实现。DataParallel适合单机多GPU，而DistributedDataParallel则通过多进程在多机多卡间同步模型和数据。同时，文章探讨了模型并行策略，用于解决大型模型的参数分布问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（备注：该博文还没写完）
1.nn.parallel.scatter 向多个设备分发参数
在这里插入图片描述
这是实现方法，在模型中可以值调用函数，其原理就是通过for循环然后copy到不同的设备上
2.allreduce 函数将所有向量相加，并将结果广播给所有的gpu

3.将一个小批量的数据均匀地分布在多个GPU上

使用多机多卡的形式
在使用多机多卡训练数据是，通常分为两种形式：（1）数据并行，模型复制为n份，然后每一份模型中传入不同bacth数据用进行训练。（2）模型并行，用于解决一张卡上容不下一个模型的参数量问题。
1.数据并行的方式
Data Parallel - Data distributed across devices
pytorch中主要有两种方式用于实现数据并行：DataParallel 和DistributedDataParallel ，这两个函数可以保证复制（replicate）出来的模型参数相同，主要区别在于DataParallel 用于线程，而 DistributedDataparallel 是用于多进程。
1.1 single machine data parallel
在这里插入图片描述
1.2 Distributed Data Parallel
Distributed Data Parallel 的方式是通过多进程实现的，每个进程读取一个小批量的数据然后传递给自己负责的一个gpu
进行计算

2.模型并行的方式
Model Parallel -Model distributed across devices
2.1 single machine Model Parallel
在这里插入图片描述
2.2 Distributed Data Parallel with Model Parallel

在这里插入图片描述