RunTime Error : cuda out of memory(模型训练报错)

在模型训练中加入TensorBoard后,原本运行正常的代码出现CUDA内存溢出错误。即使将batch_size减小至1,问题仍未解决。通过nvidia-smi检查GPU内存使用情况,发现内存被未关闭的进程大量占用。使用fuser命令找到并kill这些进程,成功解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记录一下在模型训练过程中碰到的问题。

在加了tensorboard的代码之后,原本可以正常训练的代码突然出现RunTime Error : cuda out of memory的报错。

  • 首先把batch_size改小,尝试了把batch_size减小到1,但还是没用。于是对内存进行查看。
  • 通过nvidia-smi可以看到内存的使用情况,如果感觉没开什么程序但是内存被大量占用,就说明有进程没有关掉
  • 通过fuser /dev/nvidia*可以查看是哪些进程在占用,再通过kill -9 pid对其进行关闭即可(通常为连号程序)
    在这里插入图片描述
    在查资料的过程中还发现有out of memory. Tried to allocate 和单纯的out of memory之分: 链接.但是这里通过以上的方法就得以解决,碰到此类问题还是优先按以上顺序进行测试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值