关于Pytorch训练过程中CUDA out of Memory问题

最新推荐文章于 2023-11-25 11:54:43 发布

原创最新推荐文章于 2023-11-25 11:54:43 发布 · 814 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #python #深度学习 #神经网络 #人工智能

文章讲述了如何使用Linux命令`watch--color-n1gpustat-cpu--color`动态监控GPU状态。在训练模型时，如果遇到因batch_size过大导致的错误，应确保input_ids正确反映batch_size。另外，当训练多轮后显存持续增长，可能是因为在backward()操作中变量累积，应使用`.item()`来避免，如将`total_loss+=weight*other_loss`改为`total_loss=total_loss.item()+weight*other_loss`，以防止显存泄漏问题。

先上一条命令：watch --color -n1 gpustat -cpu --color

此命令用于Linux动态监测GPU情况，直接在命令行输入即可

1.如果是没有训练就报错

batch_size太大了，输入的input_ids才能真实反映batch_size，别改错了

 input_shape = input_ids.size()
 batch_size, seq_length = input_shape

2.训练了>=1轮之后报错&&显存持续增长

看一下用于backward()的变量是否有累加，有的话加上item()
比如：

total_loss = total_loss + weight*other_loss
total_loss.backward()

改成

total_loss = total_loss.item() + weight*other_loss
total_loss.backward()

具体原理：显存持续缓慢增长的究极原因 - 小米粥的文章 - 知乎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

拿铁不加糖泡泡！

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

出现 CUDA out of memory 的解决方法

码农研究僧的博客

11-13

9437

（我的网络调整不可行，但是你们可试试这个方法排查），可能有些人可以调整。既然网络过大，调整其batch_size，让其变小即可（需要是2的倍数），减少原本需要 requires_grad=True 的计算的内存消耗。这个方法坏处是精度准确度可能会被影响，甚至减少后，反向传播期间会溢出。类似以下代码，将其调整为64、32、16、8、4、2之类的。如果你有更加合适的方法或者执行哪一步成功了，欢迎评论。不需要计算前向和后向阶段的梯度（不使用 GPU 内存）测试预训练过程中，不计算梯度训练，减少显存的使用。

PyTorch报错「CUDA out of memory」：梯度累积与混合精度训练的显存优化

热门推荐

u014714362的博客

03-19

1万+

pytorch程序出现cuda out of memory，主要包括两种情况： 1. 在开始运行时即出现，解决方法有： a）调小batchsize b）增大GPU现存（可加并行处理） 2. 在运行过程中出现，特别是运行了很长时间后爆显存了。 a) 首先检查是否是“个别实例过长”引起的，如果程序运行时已经占用GPU的大半，非常容易出现这种情况。解决方法...

pytorch:在执行loss.backward()时out of memory报错

DaringTang的博客

05-02

8129

在自己编写SurfNet网络的过程中，出现了这个问题，查阅资料后，将得到的解决方法汇总如下可试用的方法： reduce batch size, all the way down to 1 remove everything to CPU leaving only the network on the GPU remove validation code, and only executing ...

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

在使用PyTorch进行深度学习模型训练时，有时会遇到一个常见的问题，即GPU显存充足，但在运行过程中却报出“out of memory”错误。这种情况可能会让人困惑，因为直观上，既然显存足够，就不应该出现这样的问题。本文...

解决Pytorch 训练与测试时爆显存(out of memory)的问题

09-18

在使用PyTorch进行深度学习模型的训练和测试过程中，可能会遇到“显存溢出”（Out of Memory，OOM）的问题。这个问题通常是由于GPU内存不足以存储所有计算所需的张量而导致的。以下是一些解决PyTorch训练与测试时...

精选资源

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

01-20

跑模型时出现RuntimeError: CUDA out of memory.错误查阅了许多相关内容，原因是：GPU显存内存不够简单总结一下解决方法：将batch_size改小。取torch变量标量值时使用item()属性。可以在测试阶段添加如下代码：...

Pytorch解决 RuntimeError: CUDA out of memory.

weixin_44505185的博客

11-08

1654

Pytorch解决 RuntimeError: CUDA out of memory.

pytorch训练模型内存溢出

yilvyangguang520的博客

11-23

558

pytorch训练模型内存溢出

完美解決pytorch载入预训练权重时出现的CUDA error: out of memory

狂小虎/Anthony Dave的博客 KuangXiaoHu's Blogs

09-11

3751

今天小虎远程操纵工作站，想把昨晚练好的预训练模型迁移一下，发现跟往常不一样，nvidia的Cuda报错说出现超出内存的情况。

pytorch使用过程中的错误处理之内存溢出

greatwind的博客

07-13

3490

RuntimeError: CUDA out of memory. Tried to allocate 12.74 GiB (GPU 0; 14.76 GiB total capacity; 1.19 GiB already allocated; 11.42 GiB free; 2.52 GiB reserved in total by PyTorch)

CUDA out of memory

qq_41179293的博客

07-26

297

梯度没有清零：在每个训练批次之前，需要将模型的梯度归零，以避免梯度累积。否则，梯度会累积在计算图中，导致显存无法释放。确保在每个批次开始之前，使用optimizer.zero_grad()清零梯度。出现了好几次这个问题，一直不知道该怎么处理，作为小白的我，终于在刚刚发现，居然是因为每个batch没有清理显存，导致一直占用着，主要是因为我没有在每个batch进行。我变成在算是在一个epoch结束后再去进行梯度清零了，所以一下子就爆了。

终于解决pytorch训练过程中CPU内存溢出的问题

weixin_44616692的博客

06-03

4446

期待了一晚上的结果，早上起来竟然发现CPU内存溢出导致程序奔溃了，今天郁闷了一天。。。经查询，内存溢出的常见原因有：loss求和未加item()num_workers过大大量使用list转tensor。

BERT-pytorch源码实现，解决内存溢出问题

weixin_43327597的博客

11-25

979

信大家很多人都在做BERT这个模型，但是，有些人可能就是直接从transfermer这个模型里直接导入数据，但是这种方法不方便我们修改模型，于是有些人就通过pytorch详细实现了BERT,但是博主发现，这些详细实现BERT的代码出现了内存溢出问题，博主就做了改进，下面代码，我们可以解决掉内存溢出问题，主要还是因为中间结果并没有完全释放。

pytorch 训练/测试模型时错误：RuntimeError: CUDA error: out of memory

Turbo_Come的博客

04-29

2511

方法1：batch-size设置多小方法2： with torch.no_grad(): net = Net() out = net(imgs) 积累的梯度应该是会一直放在显存里的...用了这一行就会停止自动反向计算梯度方法3：设置cpu来加载模型： model_path = 'path/to/model.pt' model = UN...

pytorch训练时显存溢出

qq_45023582的博客

03-09

2409

训练时训练次数增加发生显存爆炸

pytorch 在运行代码时，报错CUDA out of memory时候，的一些解决方法

weixin_48127442的博客

03-25

1360

pytorch 在运行代码时，报错CUDA out of memory时候，的一些解决方法方法一：修改bachsize的大小。 bachsize越大，需要的空间越大，所以应该将bachsize适当调小一点。方法二：修改每次处理的图片数量。 batchimage：每次处理的图片数量越多，则需要分配越多的内存，因此，当在自己的笔记本上跑小的模型的时候，出现内存错误，可以将batchimage的数目调小一点，这样需要的内存则要少一些。方法三：修改数据集大小如果在笔记本上跑代码时候，出现以上的内存不足问题

pytorch训练模型出现cuda out of memory，请问有哪些可能的情况以及如何修改

03-28

出现"cuda out of memory"错误通常有以下几种情况： 1.模型过大或者batch size过大，导致显存不足。 2.使用多个GPU进行训练时，其中一个GPU显存不足。 3.在训练过程中使用了大量的变量和数组，导致显存不足。 4.代码中存在内存泄漏问题，导致显存不足。针对这些情况，可以采取以下措施： 1.减小模型大小或者减小batch size。 2.检查每一个GPU的显存使用情况，如果有一个GPU显存不足，可以将训练过程中的参数和数据移动到其他GPU上进行处理。 3.在训练过程中尽可能使用in-place操作，避免产生过多的中间变量。 4.检查代码中是否存在内存泄漏问题，及时释放不再需要的变量和数组。总之，解决"cuda out of memory"问题的关键在于优化代码和控制显存的使用。