nvidia-smi指令报错:Failed to initialize NVML: Driver解决
nvidia-smi指令报错:Failed to initialize NVML: Driver解决
分配的新电脑,ubuntu18.04系统,nvidia的驱动都装好了,但是使用指令:
nvidia-smi
报错:
Failed to initialize NVML: Driver/library version mismatch
安装gpustat也显示找不到gpu,且cuda,深度学习gpu均不行
原因是:NVIDIA
内核驱动版本与系统驱动不一致,
尝试调整系统的驱动版本:
ubuntu桌面
->左下角九宫格->software & update
->additional Drivers
,这里发现我的计算机不能更改驱动版本,灰色不可选。显示manual
。。。
按照网上方法尝试
sudo rmmod nvidia
也不行,各种mod
在使用中,进入无桌面的linux环境
,kill
掉多个进程,发现nvidia-pm
始终kill不掉
,此方法在我电脑上不可行。
花费了好几个小时尝试,最后解决方法为:
1.卸载驱动
sudo apt-get purge nvidia*
2.查找可用的驱动版本
ubuntu-drivers devices
查找本机内核版本:
cat /proc/driver/nvidia/version
发现为440.33.01
于是尝试安装440版本
的驱动:
sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime
然而安装失败,某些包不匹配,系统解决不了错误,卡了一会时间。
最终尝试安装415版本
的,安装成功了
sudo apt-get install nvidia-driver-415 nvidia-settings nvidia-prime
3. 调整系统的驱动
ubuntu桌面
->左下角九宫格
->software & update
->additional Drivers
。
现在可用更改gpu驱动
,我这里选择了nvidia-driver-440
(可能尝试其他也可以)。
点击apply changes
,然后安装结束重启,
输入
nvidia-smi
显示:
终于成功
然后使用
conda install -c anaconda pytorch-gpu
即可。
底下评论
关于重启
大部分重启就好了,少部分重启了之后 nvidia-smi
卡主了,卡了一会儿就好了
sudo reboot前建议确保服务器重启后仍能正常连接
关于升级(谨慎)
可以sudo apt-get upgrade
解决
亲测,没有用。做完后不重启机器执行 nvidia-smi
,还是Failed to initialize NVML: Driver/library version mismatch
质数用户:
查了一下,是NVIDIA 内核驱动版本与系统驱动不一致导致的,但是我的机器出现好几次了,有什么办法避免这个问题吗?请问大佬们能不能支个招
阿越用户提问
我也遇到了几次了,请问你最后怎么解决的
质数用户回答
我尝试了几种思路:
1.最简单的是重启,貌似能解决;
2.重启不能解决就换重新安装了,后来就把一个固定的driver安装文件保存在本地,出了问题就重新sudo安装,好像也行,就是折腾;
3.固定版本,这个我试过,好像不咋好用;
4.设置驱动不更新,这个到目前为止还没出现问题。
上面4个方法是我都一一尝试过的,我用的系统是ubuntu的,具体方法也都是在知乎和csdn找的。
一般出问题都是跟新别的驱动时,自动把Nvidia的驱动更新了,从而导致这个问题。换句话说,要是能保证机器不联网,或者不用sudo去更新软件,一般来说都是稳定的。
而一旦出了上述问题,我最常用的办法是第2条,总结了一套固定的版本(包括驱动,cuda,cudnn)留在本地,除了问题就重新安装一次(一般重装驱动就可以了)
奥塔康007用户
最好是现purge掉已有的driver,然后通过apt install cuda-12-1或者别的什么版本,只要是最终需要用到的cuda sdk版本就行,cuda sdk会安装对应的driver 奥塔康007:Ubuntu Cuda安装?
YEAH用户
提个问题,我这边想使用pytorch 1.9
就必须使用cuda10.2
,就必须驱动版本是440以上,但是ubuntu-drivers
一直只显示384的驱动可以安装,这是linux内核版本
太低的问题吗?
gocpplua用户
可能是有东西没有卸载干净吧,执行了sudo apt autoremove
后好了
水dong方块用户
感觉需要关掉自动更新, 又出现了
orioriomo用户
谢谢你~ 虽然没有用你的方法来解决,但是前面定位的思路给了很好的借鉴。我这边问题的原因是在安装其他包时自动更新了一个libnvidia-compute-515-server
, 但我的系统内核 cat /proc/driver/nvidia/version
看是440。按照思路重新安装了440-server
就好使了,给大家借鉴下~
变形金刚用户
440-server
指的是“sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime
”这个吗?小白求问[发呆]
yujmo用户
我在实验室直接从官网下载的最新cuda装上去,出现了这个问题,按照你的教程,我把原先的实验环境恢复过来了。 我才刚来实验室,还是不要乱动的好
晏承言用户
是卸载了cuda
吗?
雨布用户
解决了!避免了重装驱动cuda
和cudnn
,感谢!