问题场景:
两卡的 NVIDIA A100 服务器,在输入命令 nvidia-smi 时,出现了和之前不同的界面,如下图所示:
在最右列的选项中,除了 Uncorr. ECC 和 Compute M. 之外,还多出了一个 MIG M. 选项,并且其状态置为 Disabled。
而常规输入命令 nvidia-smi 时,界面如下:
原因分析:
可以使用 nvidia-smi -q 来查询所有GPU的当前详细信息,更多命令可以参考博文:NVIDIA-SMI系列命令总结
因此,出现 Disabled 的原因只是未开启 MIG 模式。
关于MIG模式,可以参考:
什么是多实例 GPU (MIG) ?
NVIDIA 多实例 GPU
MIG 模式的使用和设置可以参考:
查看gpu使用率 nvidia_如何玩转安培架构的 MIG (多实例GPU) 及其应用案例分享
————————————————
原文链接:https://blog.youkuaiyun.com/yyywxk/article/details/122031413