在使用tensor2tensor进行训练的时候,设置worker_gpu=4 (显卡总数为4),运行一会儿就会出现下面的情况:
Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the system to recover this GPU
暂时还没查到原因,有查找的可以私信或是在评论中探讨一下!
最近看到了一些解决方式,可以参考。不过未做测试,有兴趣的可以测试一些,在评论区回复是否可用!
方案1:
vim /etc/rc.local , 加入:/usr/bin/nvidia-smi -pm 1, 保存重启。测试即可
方案2:
vim /etc/default/grub, 在GRUB_CMDLINE_LINUX_DEFAULT 值里面添加 acpi=noirq thermal.off=1,
例如: GRUB_CMDLINE_LINUX_DEFAULT="quiet splash acpi=noirq thermal.off=1"
save and type update-grub ,然后重启