Pytorch 神经网络（ out of memory )

xiangyong58

于 2020-01-13 22:18:24 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Machine & Deep Learning 文章标签：神经网络问题总结

本文链接：https://blog.youkuaiyun.com/xiangyong58/article/details/103965315

Machine & Deep Learning 专栏收录该内容

78 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文讨论了Pytorch神经网络训练中出现内存不足（Out of Memory）的问题，包括在恢复训练时内存占用增加的情况。解决方法包括在加载检查点时注意设备分配，尽量将操作放在CPU上，以及使用torch.cuda.empty_cache()清理显存。测试阶段要记得设置no_grad以防止显存爆满。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、从头开始训练的时候正常，大概占了4/5的显存容量，然后中断了，再resume 就会出现out of memory ？

因为你 load checkpoint 的时候把参数加载到显存里面了；而且大概率你的code是这么写的然后报的错：

model = Network().cuda()
# 这里如果你存下来的权重device在cuda上，那么将自动载入GPU; 此时 model在GPU，新载入的参数也在GPU，就很有可能放不下
# 而且就算不在，在内存上，你还是得 state_dict = state_dict.cuda() 还是会炸显存
state_dict =  torch.load('xxxxx.pth.tar') 
model.load_state_dict(state_dict)

改成这样就行了

model = Network()
model.load_state_dict(torch.load('xxxx.pth.tar',  map_location='cpu' ))
model.cuda()

存储方面，能在 device='cpu' 上面做的事情，就别在 devi

了解本专栏

超级会员免费看

Pytorch 神经网络（ out of memory )

一、从头开始训练的时候正常，大概占了4/5的显存容量，然后中断了， 再resume 就会出现out of memory ？

一、从头开始训练的时候正常，大概占了4/5的显存容量，然后中断了，再resume 就会出现out of memory ？