更多关注:
寻找多GPU中出错的显卡详解
问题
在深度学习计算环境中可能安装了多块GPU显卡,由于显卡质量原因,机房电压、温度原因可能导致某块,或者某几块显卡坏掉。如何在不打开机箱的情况下判断是哪块显卡出现问题,对于机器在远程机房的情况下,有关键的作用。如果是哪块显卡出现问题的都不知道,怎么远程知道别人帮你维护呢?

另外,通过命令行是无法查询GPU的Serial Number等具有标志性的识别码。

解决
第一步
确定nvidia-smi中列出来的显卡序号与VGA中编号的对应关系:
nvidia-smi -q > aa.log
vim aa.log