记录一下在模型训练过程中碰到的问题。
在加了tensorboard的代码之后,原本可以正常训练的代码突然出现RunTime Error : cuda out of memory的报错。
- 首先把batch_size改小,尝试了把batch_size减小到1,但还是没用。于是对内存进行查看。
- 通过nvidia-smi可以看到内存的使用情况,如果感觉没开什么程序但是内存被大量占用,就说明有进程没有关掉
- 通过fuser /dev/nvidia*可以查看是哪些进程在占用,再通过kill -9 pid对其进行关闭即可(通常为连号程序)
在查资料的过程中还发现有out of memory. Tried to allocate 和单纯的out of memory之分: 链接.但是这里通过以上的方法就得以解决,碰到此类问题还是优先按以上顺序进行测试。