对于模型参数以及模型计算的时候计算量的计算我懂的,但是对于所需要的显存计算,我一脸懵逼。
幸亏看到了一篇较好的文章参考这篇文章(按照这个模型中的方法来计算)
然后基于我目前的一个模型,我计算了下~
写笔记计算了下,基本是这样~
Question:
但是其实我对于原文链接中的下面
这里没想清楚,为什么是这个memory for output这里最后所需要的GPU要乘以2?
按道理来说,我们存下中间节点,不管forward 还是backward 都用它就好了吧,这个layer error指的是什么呢?
在backward