pytorch的多gpu训练

最新推荐文章于 2025-07-25 18:33:44 发布

猫猫与橙子

最新推荐文章于 2025-07-25 18:33:44 发布

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习pytorch使用文章标签：多gpu训练 pytorch

本文链接：https://blog.youkuaiyun.com/qq_22764813/article/details/91410748

1.多GPU训练，出现out of memory

出现情景：预训练模型是使用gpu0训练得到，然后要在多gpu的服务器上进行微调，使用gpu id为[4,5,6,7]，然后出现报错如下：

cuda runtime error (2) : out of memory at /pytorch/aten/src/THC/THCTensorRandom.cu:25

错误原因分析：在加载预训练模型的位置报错，在台式机（只有一块gpu）将模型加载打印输出参数：

代码：

checkpoint = torch.load("/home/final.pth")
for k, v in checkpoint.items():
     print(k)
     print(v)

打印输出出现：

发现模型加载的时候就将参数传入到gpu当中，而我在服务器上出现报错应该是模型参数直接加载到了gpu id = 0 的显卡上，但是gpu id= 0的显卡上显存已经满了；所以报出了内存溢出的问题；但是我在操作的时候，直接使用gpu id = 4的显卡也会出现错误，出现错误的模型加载代码如下：

if conf.pretrained == True:
      checkpoint = torch.load("./model_mobilefacenet.pth",
map_location={'cuda:1':'cuda:0'})
      self.model_mobile.load_state_dict(checkpoint)

然后修改成这样也出错：

if conf.pretrained == True:
      checkpoint = torch.load("./model_mobilefacenet.pth",
,map_location=lambda storage, lo

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猫猫与橙子

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

【问题探究】如何解决pytorch训练时的显存占用递增（导致out of memory）

fish_like_apple的博客

09-26

2万+

前言： { 现在的神经网络模型，动不动就爆内存。两年前我笔记本2G的显存都绰绰有余，现在16G的P100，24G的P40却还不够。更让我郁闷的是，在pytorch训练时，显存占用竟然会不断增加，可能刚开始训练时是正常的，但是放在那里，不知道什么时候它就突然来一句out of memory，然后就尥蹶子不干了，白白浪费了很长的时间。所以这个问题我确实需要搞清楚。 } 正文： ...

解决训练时“cuda ：out of memory”

qq_40313336的博客

04-20

3514

参考博文：[解决]GPU显存未释放问题 - 简书在pysot训练过程中，从第11个epoch起，backbone的参数也开始参与训练，所以显存会增加，也许会导致显存溢出，训练报错停止。首先，需要在训练前更改batch_size参数，调小一些。如果还不行，则需要考虑是否有僵尸进程占用显存。 1、查看GPU占用情况 nvidia-smi 2、查看进程号 fuser -v /dev/nvidia* 3、终止僵尸进程 kill -9 进程号 ...

1 条评论您还未登录，请先登录后发表或查看评论

深度学习篇---预训练模型

道阻且长，行则将至。

07-25

1035

预训练模型是深度学习中通过大规模数据预先训练好的基础模型，可直接使用或微调适配特定任务。主要优势包括：节省训练时间和算力资源，在小数据集上也能获得较好效果，且性能通常优于从头训练的模型。适用于快速原型开发、数据有限任务、迁移学习等场景。在计算机视觉领域，常用ResNet、MobileNet等预训练模型，通过简单修改输出层即可适配自定义分类任务。预训练模型提供通用特征提取能力，能加速模型收敛并降低过拟合风险，是提升开发效率的有效工具。

训练模型，内存、显存Out of memory问题

夏目里奇的博客

01-17

6761

1.背景最近尝试训练模型时，出现内存不足的问题，此外还遇到了显存不足的问题。尝试了网上的一些方法，发现没用或用不了：混合精度运算即半浮点数精度训练，首先试了apex这个库，结果发现没用，别的博客说pascal构架的显卡用不了，结果笔记本1050ti好像就是此构架。手动设置所有float()为half()类型，也还是不行。降低批次已经为1了，还怎么降，索性去掉BN层，然后还是提示显存...

Pytorch实现多GPU分布式训练

wang_xinyu的博客

04-13

893

何为分布式训练分布式计算指的是一种编写程序的方式，它利用网络中多个连接的不同组件。通常，大规模计算通过以这种方式布置计算机来实现，这些计算机能够并行地处理高密度的数值运算。在分布式计算的术语中，这些计算机通常被称为节点（node），这些节点的集合就是集群。这些节点一般是通过以太网连接的，但是其他的高带宽网络也可以利用分布式架构的优势。并行策略的类型并行深度学习模型有两种流行的方式：模型并行、数据并行。模型并行模型并行指的是一个模型从逻辑上被分成了几个部分（例如，一些层在一部分，其他层在..

out of memory -- Pytorch并行训练

weixin_45893089的博客

02-21

379

遇到了out of memory ，一直找怎么多卡训练，一直不大懂其中原理，特意写这个博客，记录下看过的一些博客

pytorch 多 gpu 训练代码.docx

03-24

### PyTorch 多 GPU 训练详解 #### 一、引言随着深度学习模型规模的不断扩大，训练这些模型所需的计算资源也越来越多。为了提高训练效率，利用多个 GPU 进行并行训练成为了常见的解决方案之一。PyTorch 作为一款...

LSTM多GPU训练、pytorch 多GPU 数据并行模式

10-25

在PyTorch中，LSTM（长短期记忆...总结起来，成功地在PyTorch中进行LSTM的多GPU训练需要理解设备管理、数据并行化、隐藏状态的初始化以及模型的正确使用。通过解决上述问题，你可以有效地利用多GPU资源加速模型训练。

关于pytorch多GPU训练实例与性能对比分析

09-18

本文将深入探讨如何在PyTorch中进行多GPU训练以及性能对比分析。首先，多GPU训练的主要目的是加速模型的训练过程，通过并行化运算充分利用多GPU资源。在PyTorch中，可以使用`nn.DataParallel`或`nn.parallel....

解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

09-16

### 解决PyTorch多GPU训练保存的模型，在单GPU环境下加载出错的问题 #### 背景在实际工作中，我们经常会遇到这样的情况：在配备了多张GPU的工作站或服务器上训练深度学习模型，然后将训练好的模型迁移到只有单个...

pytorch多GPU训练简明教程

weixin_68094467的博客

08-09

1084

模型（module）会被复制到每个设备上，这意味着输入的批次（batch）会被平均分配到每个设备，但模型会在每个设备上有一个副本。总结来说，DataParallel会自动将数据切分并加载到相应的GPU上，将模型复制到每个GPU上，进行正向传播以计算梯度并汇总。DistributedDataParallel (DDP) 是 PyTorch 提供的一个用于分布式数据并行训练的模块，适用于单机多卡和多机多卡的场景。输入数据不拆分，但需要通过不同的 GPU 处理模型的不同部分。每个进程都有一个唯一的 rank。

3张显卡但是torch.cuda.device_count = 1

m0_37937789的博客

10-22

8390

有3张显卡但是torch.cuda.device_count = 1 用nvidia-smi查看GPU信息如下显示但是在使用时，使用torch.rand(3,3).cuda('1)或者torch.rand(3,3).cuda('0‘’)出现错误CUDA error : invalid device ordinal，使用torch.cuda.device_count()查询，结果为1，如下图所示后来通过检查环境变量，发现环境变量设置有问题，原始设置如下所示，系统默认了GPU显卡为第二块显卡，所以出现了

解决kaldi训练报错 CUDA error: ‘out of memory‘，gpu不够用（亲测有效）

qq_43744723的博客

07-28

2495

kaldi训练mobvoihotwords报错：如下截图：终端报错提示在，报错信息被记录在exp/chain/tdnn_1a/log/train.1.1.log里面，于是找到log文件，打开发现有如下报错,报错是说gpu不够用。报错里面也给出了解决报错的建议。 ERROR (nnet3-chain-train[5.5]:AllocateNewRegion():cu-allocator.cc:491) Failed to allocate a memory region of 8388608 bytes.

Pytorch 训练与测试时爆显存(out of memory)的一个解决方案

热门推荐

xiaoxifei的专栏

11-23

6万+

Pytorch 训练时有时候会因为加载的东西过多而爆显存，有些时候这种情况还可以使用cuda的清理技术进行修整，当然如果模型实在太大，那也没办法。使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下： try: output = model(input) except RuntimeError as exception: if "out of...

pytorch多GPU分布式训练（DDP），cuda0 out of memory，cuda0减少batch_size的注意事项。

m0_37833297的博客

12-11

5046

当我们使用distributedDataParallel（DDP）进行分布式训练的时候，假设单卡训练时，一张卡一个batch能装4张图片，并且占得比较满。而多卡训练时，由于cuda0除了要进行前向传播等还得负责通信，cuda0的空间就不够大了。这时，我们可以选择减少cuda0上的batch_size大小，比如改为1. 假如我们有8张卡，设置的总的batch_size = 32，原始设置的每张卡batch_size=4。以github上这个文件为例截取需要改的一段： parser.add_argumen

全网最全RuntimeError: CUDA error: out of memory解决方法

qq_37668436的博客

11-19

5万+

第一种情况如果这个报错后面跟了想要占用多少显存但是不够这样的字眼，如下：解决办法就很简单了：改小batchsize，batchsize砍半可以差不多省掉一半的显存推理阶段加上with torch.no_grad()，这个可以将修饰的代码段不要梯度，可以省掉很多显存改小input的shape，例如(224,224)->(112,112)这样可以省掉一半的显存换小的网络结构用多卡训练，torch可以用model = nn.DataParallel(model)启用多卡训练，终端用CUDA

ML-CUDA out of memory (training)解决

c_h_q_的博客

05-03

1443

ML-CUDA out of memory (training)解决

解决Pytorch 训练与测试时爆显存(out of memory)的问题

weixin_45814898的博客

06-14

3496

Pytorch 训练时有时候会因为加载的东西过多而爆显存，有些时候这种情况还可以使用cuda的清理技术进行修整，当然如果模型实在太大，那也没办法。使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下： try: optimizer.step() except RuntimeError as exception: if "out of memory" in str(exception): print("WARNING: out of memory")

pytorch利用多个GPU并行计算多gpu

不知道起什么名字

07-08

1175

一、 torch.nn.DataParallel torch.nn.DataParallel(module,device_ids=None,output_device=None,dim=0) 在正向传递中，模块在每个设备上复制，每个副本处理一部分输入。在向后传递期间，来自每个副本的渐变被加到原始模块中。 module：需要并行处理的模型 device_ids：并行处理的设备，默认使用所有的cuda output_device：输出的位置，默认输出到cuda:0 例子： >>> ...

pytorch 多GPU训练卡住