问题来源:使用好好的ubuntu 服务器,重启后,nvidia-smi 不可用了,报错
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
看到网上关于这个问题的解决方案很多,其实不用那么复杂。报错的原因是因为重启服务器后,Ubuntu内核升级导致nvidia driver的版本不匹配,重新安装适合当前版本的驱动就行了。网上普遍采用的办法是 ll /usr/src/|grep nvidia 获取支持的驱动版本,再使用dkms安装,这其实不对,这样获取的是原来的驱动版本,而不是最新内核支持的驱动版本,我这么做没成功过,反而报错:
解决方案很简单:sudo ubuntu-drivers autoinstall。这条命令会自动安装所有硬件驱动。安装完成后,ll /usr/src/|grep nvidia,可以看到多了一条记录,然后就可以愉快的执行nvidia-smi。bingo~
sudo ubuntu-drivers autoinstall