关于模型训练的时候所需要的GPU显存的计算以及模型参数,计算量的计算

本文探讨了在深度学习模型训练时如何计算所需的GPU显存,作者在理解模型参数、计算量的基础上,对GPU显存计算感到困惑。通过参考一篇文章,作者进行了笔记计算,并提出疑问:为何在计算output所需GPU显存时要乘以2?同时,文章讨论了在反向传播过程中,为何需要保存中间节点的值以进行计算,这涉及到内存占用的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于模型参数以及模型计算的时候计算量的计算我懂的,但是对于所需要的显存计算,我一脸懵逼。

幸亏看到了一篇较好的文章参考这篇文章(按照这个模型中的方法来计算)

然后基于我目前的一个模型,我计算了下~

写笔记计算了下,基本是这样~

 

Question:

但是其实我对于原文链接中的下面

这里没想清楚,为什么是这个memory for output这里最后所需要的GPU要乘以2?

此时结合这篇文章再看一下

按道理来说,我们存下中间节点,不管forward 还是backward 都用它就好了吧,这个layer error指的是什么呢?

在backward

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值