1、掉了一张卡,导致nvidia-smi无法显示,可以把掉的那张卡暂时禁用(它的原理是开启维护模式drain mode,防止该gpu接收新的工作负载,不会中断现有任务或影响系统稳定性)
sudo nvidia-smi drain -p 0000:01:00.0 -m 1
这里的 -m 是指GPU的计算模式,默认是0,即default,;1是指PROHIBITED,即禁止任务在它上面执行。
2、RuntimeError: Pin memory thread exited unexpectedly
import torch.multiprocessing
torch.multiprocessing.set_sharing_strategy('file_system')
3、跑代码掉卡,可以在/etc/rc.local里写这些代码,主要是第1条,第2条应该不用写
nv