【CUDA out of memory】显存不足时的Trick

墨垣_

已于 2024-10-08 13:29:13 修改

阅读量382

点赞数 7

文章标签：深度学习人工智能 nlp python 自然语言处理机器学习 gpu算力

于 2024-08-01 10:48:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_52965867/article/details/140841623

版权

显存不足时的Trick

降低batch_size
适当降低batch size，则模型每层的输入输出就会成线性减少
数据类型
32位的浮点数，切换到 16位的浮点数
梯度累积
当执行 loss.backward() 时，会为每个参数计算梯度，并将其存储在 paramter.grad 中，注意到， paramter.grad 是一个张量，其会累加每次计算得到的梯度。

在 Pytorch 中，只有调用 optimizer.step()时才会进行梯度下降更新网络参数。

batch size 与占用显存息息相关，但有时候我们的batch size 又不能设置的太小，这咋办呢？答案就是梯度累加

传统训练：

for i,(feature,target) in enumerate(train_loader):
    outputs

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。