今天尝试了一下Transformer,一直遇到当validate若干次之后爆显存,一开始以为参数过多,batch size过大,但是无济于事。谷歌了相关内容,发现原来是需要加
with torch.no_grad():
否则,积累的梯度应该是会一直放在显存里的...用了这一行就会停止自动反向计算梯度
emmmmm,记录下又一个踩过的坑。。。。
作者在尝试使用Transformer时,遇到validate若干次后爆显存的问题。起初认为是参数或batch size过大所致,但未解决。经谷歌搜索,发现需添加特定内容停止自动反向计算梯度,否则积累的梯度会占显存。
今天尝试了一下Transformer,一直遇到当validate若干次之后爆显存,一开始以为参数过多,batch size过大,但是无济于事。谷歌了相关内容,发现原来是需要加
with torch.no_grad():
否则,积累的梯度应该是会一直放在显存里的...用了这一行就会停止自动反向计算梯度
emmmmm,记录下又一个踩过的坑。。。。
1415
20万+
2292
8762
6万+