Pytorch的nn.DataParallel 多 GPU 训练只用到单个GPU/只用到一个GPU/不起作用

最新推荐文章于 2024-07-09 15:30:57 发布

原创

最新推荐文章于 2024-07-09 15:30:57 发布 · 1.1w 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #pytorch #深度学习

本文探讨了使用PyTorch的nn.DataParallel进行多GPU训练时遇到的问题及解决方法。当batch_size小于GPU数量时，DataParallel将不起作用；自定义前向传播方法也不会触发多GPU训练；此外，还需注意forward()函数的输入形式。

最近尝试使用 pytorch 的 nn.DataParallel 进行多 GPU 训练。按照官方文档修改代码后发现只使用了一块 GPU，最后经过查阅论坛，找到了原因。这里总结一下，希望能帮到大家。

顺便一提 pytorch 官网推荐使用 DistributedDataParallel 进行多 GPU 训练，而这篇博客只是分享一些问题的原因。

nn.DataParallel 原理简述：在前向传播过程中，将输入的 batch 平均分配到用户指定的 GPU 中，每个 GPU 中有一份 module 的副本，每个 GPU 分别处理分配到的 batch，最后将计算后的梯度汇总。

只用到单个GPU/只用到一个GPU/不起作用可能的原因：

1. batch_size 过小
如果你的 batch_size 小于你的 GPU 数量，那么 DataParallel 不会起作用。
2.未使用 module 的 forward 方法进行前向传播
当你像下面的方式使用 DataParallel 时:

model = nn.DataParallel(model)

那么，只有在你调用 module 时才会将 batch 分配到其它的GPU，即：

model(input)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SugerOO

关注关注

10
点赞
踩
24

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch 使用单个GPU与多个GPU进行训练与测试的方法

09-18

接着，当有多块GPU可用时，可以利用PyTorch提供的nn.DataParallel模块来实现在多个GPU上并行训练。当代码中检测到有多个GPU（torch.cuda.device_count()>1）时，就可以通过创建nn.DataParallel的实例来包装你的模型...

pytorch 指定gpu训练与多gpu并行训练示例

09-18

在PyTorch中，可以使用 `torch.nn.DataParallel` 类来实现数据并行训练，它会在多个GPU上并行地执行模型的前向传播。以下是如何使用 `DataParallel` 的示例： ```python import torch from torch.nn.parallel ...

6 条评论您还未登录，请先登录后发表或查看评论

Pytorch使用DataParallel后仍只使用一个GPU

qq_45347185的博客

05-14

1965

服务器类型：slurm管理下的超算服务器系统：linuxpython版本：3.8虚拟环境：virtualenvpytorch版本：1.10问题描述：在服务器上用上卡跑模型时，使用后，模型和数据仍然只占用第一个gpu，然后内存爆掉。

Pytorch使用nn.DataParallel失效：只能使用单GPU / 无法使用多GPU训练

学习 & 分享 ~

05-13

7520

官方文档： torch.nn.DataParallelDataParallel 在 Module 级别实现并行计算，关于使用了 DataParallel 而实际训练时不起作用（只能使用单 GPU）的可能原因：1. 设置的 Batch Size 小于可用的 GPU 数量，这一点在官方文档中也有说明：需要保证大于使用的 GPU 数量。2. 未使用 nn.Module 的默认 forward() 方法执行前向传播。一般情况下，定义的 Model 继承自，在进行前向传播时，调用函数，能够进行多 GPU 并行

torch.nn.DataParallel设置了仍然在一块卡上跑的问题

石开的博客

07-28

5382

问题：torch.nn.DataParallel设置之后，仍然在一块GPU上加载直到内存爆掉。解决：如果你的model包含encoder1，encoder2，decoder，discriminator等多个结果，应当对每个结构都用torch.nn.DataParallel包裹，而不是只对model进行包裹。原来（出错）： model = MyModel.MyModel(opt).cuda() model.train() model = torch.nn.DataParallel(model) mode

pytorch 解决gpu训练只占一块卡

sinat_16423171的博客

08-02

4873

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。出现0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。因此，为了防止训练由于 out of memory 而中断。比较笨的办法是减少batch_size 那么没有更优雅的方法呢？答案是肯定的。那就是借用下transformer-xl中用到的 BalancedDataParallel类。代码如下（代码出处）： import

服务器有多张GPU可Pytorch中却只能检测到一张卡（several GPUs, only one can be detected）

开飞机的小毛驴儿

01-03

1万+

遇到了一个棘手的问题，实验室服务器有8张GPU，在使用nvidia-smi时候也能显示8张GPU的编号和使用情况，但是真正在自己跑程序的时候却只能识别到1张卡，且默认是在0号卡上。这样就导致了一个问题，当0号卡有别人在跑程序的时候，经常会出现out of memory的错误。如果你强行在代码中通过诸如： torch.cuda.set_device(4) 或者 import os os.e...

Pytorch nn.Dataparallel model state_dict multi-gpu to single-gpu

youmibuaa的博客

07-28

3076

reference link import torch import torch.nn as nn from collections import OrderedDict from torch.nn.parameter import Parameter def state_dict(model, destination=None, prefix='', keep_vars=False): ...

PyTorch 使用DataParallel()实现多GPU训练

不忘初心~

08-22

1万+

PyTorch 使用DataParallel()实现多GPU训练

pythorch 错误程序只能在一个gpu上运行

ResumeProject的博客

09-24

1924

ctrl+shift+f 全局搜索cuda关于两者的区别和工作方式可以参考，所以解决这个问题只需对设备进行统一即可。

pytorch使用多GPU进行训练batch加载的数据只有1/GPUS

AAliuxiaolei的博客

09-06

843

使用 torch.nn.DataParallel 进行多卡训练是，debug时加载的数据只有1/GPUS

PyTorch多GPU训练模型——使用单GPU或CPU进行推理的方法

qq_44949041的博客

09-07

5303

使用DataParallel`和DistributedDataParallel进行多GPU并行训练并报错模型，在推理阶段采用单个GPU或者CPU加载模型。加载时容易出现两种错误：IndexError: list index out of range 和 Missing key(s) in state_dict:。这时可以采用map_location=device等方法进行解决。

pytorch使用多个GPU训练及单个GPU训练的相关问题

qq_44289607的博客

03-08

7280

1 pytorch使用多个GPU同时训练在pytorch上使用多个GPU(在同一台设备上，并非分布式）进行训练是件非常容易的事情，只要在源代码中添加（修改）两行代码即可。把模型放在GPU上： device = torch.device("cuda:0") model.to(device) 将tensor复制到GPU上 mytensor = my_tensor.to(device) 注意：调用my_tensor.to(device)会在GPU上返回一个新的my_tensor副本，而不是重写

pytorc使用多个GPU同时训练及常见问题解决办法

LCCFlccf的博客

05-16

6748

在pytorch上使用多个GPU（在同一台设备上，并非分布式）进行训练是件非常容易的事情，只要在源代码中添加（修改）两行代码即可。下面贴上官方教程给的示例代码。官方tutorial 把模型放在GPU上: device = torch.device("cuda:0") model.to(device) 将tensor复制到GPU上 mytensor = my_tensor.to(device) ...

pytorch 多个GPU 只想用其中几个gpu时

weixin_39986534的博客

08-24

556

import os os.environ['CUDA_VISIBLE_DEVICES'] = '2,3' 这样就只会用到编号2和3 的GPU了不过需要注意的是在代码中这两个的编号会变成 0,1

Pytorch中多GPU并行计算教程

最新发布

Ppandaer的博客

07-09

1074

在你的代码中，你可以在加载模型到GPU之前，添加一行代码来设置要使用的GPU。GPU的索引号是从0开始的，所以GPU-1实际上是第二个GPU。如果想要在第一个GPU上运行你的程序，应该使用。参数是你想要使用的GPU的索引号，例如，如果你有两个GPU，那么它们的索引号分别是0和1。函数中创建了一个CUDA张量。你应该确保这个张量在你选择的GPU上，可以通过在。此外，需要确保的所有CUDA张量也在同一个GPU上。在PyTorch中，你可以使用[来设置要使用的GPU。

【pytorch】深度学习单卡训练升级到多卡训练（nn.DataParallel原理），以手写数据集分类为例

种一棵树最好的时间是十年前，其次是现在

03-22

2012

然后，nn.DataParallel会将输入数据划分为多个小批次，每个小批次分配到不同的GPU上，并使用torch.nn.parallel.scatter函数将输入数据复制到各个GPU上。接下来，nn.DataParallel会在每个GPU上分别计算模型的输出，并使用torch.nn.parallel.gather函数将各个GPU上的输出合并起来，得到最终的输出。最后，nn.DataParallel会将每个GPU上的输出合并起来，得到最终的输出，并计算损失函数和梯度。

Pytorch的nn.DataParallel详细解析

qq_38410428的博客

08-04

2万+

前言 pytorch中的GPU操作默认是异步的，当调用一个使用GPU的函数时，这些操作会在特定设备上排队但不一定在稍后执行。这就使得pytorch可以进行并行计算。但是pytorch异步计算的效果对调用者是不可见的。但平时我们用的更多其实是多GPU的并行计算，例如使用多个GPU训练同一个模型。Pytorch中的多GPU并行计算是数据级并行，相当于开了多个进程，每个进程自己独立运行，然后再整合在一起。 device_ids = [0, 1] net = torch.nn.DataParallel(net,

PyTorch多GPU训练实现详解：DataParallel与DistributedDataParallel

PyTorch 提供了两种主要的多 GPU 训练方式：`torch.nn.DataParallel` 和 `torch.nn.parallel.DistributedDataParallel`（简称 DDP），它们分别适用于不同的使用场景和性能需求。首先，从代码结构来看，示例中的 `...

Pytorch的nn.DataParallel 多 GPU 训练 只用到单个GPU/只用到一个GPU/不起作用

Pytorch的nn.DataParallel 多 GPU 训练只用到单个GPU/只用到一个GPU/不起作用