发现服务器好像有挖矿程序再跑,我重启了一下,结果重启后nvidia-smi报错了:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
查阅资料说可能是重启后linux内核升级导致的。之前的Nvidia驱动不匹配连接了,但是此时Nvidia驱动还在,可以通过命令 nvcc -V 找到答案。

解决方法:
(1)第一步,安装dkms:
sudo apt-get install dkms
(2)第二步,查看本机连接不上的驱动版本:
ls -l /usr/src/

(3)第三步,使用dkms重新安装适合驱动:
sudo dkms install -m nvidia -v 515.76
(4)问题解决!

文章描述了在服务器上发现挖矿程序并重启后,NVIDIA-SMI无法正常工作,提示与NVIDIA驱动通信失败。解决方案包括安装dkms,查看当前驱动版本,并使用dkms重新安装匹配的Nvidia驱动(v515.76)来修复问题。
864

被折叠的 条评论
为什么被折叠?



