python系列&deep_study系列:nvidia-smi指令报错:Failed to initialize NVML: Driver解决




nvidia-smi指令报错:Failed to initialize NVML: Driver解决

分配的新电脑,ubuntu18.04系统,nvidia的驱动都装好了,但是使用指令:

nvidia-smi

报错:

Failed to initialize NVML: Driver/library version mismatch

安装gpustat也显示找不到gpu,且cuda,深度学习gpu均不行

原因是:NVIDIA 内核驱动版本与系统驱动不一致,

尝试调整系统的驱动版本:

ubuntu桌面->左下角九宫格->software & update->additional Drivers,这里发现我的计算机不能更改驱动版本,灰色不可选。显示manual。。。

按照网上方法尝试

sudo rmmod nvidia

也不行,各种mod在使用中,进入无桌面的linux环境kill掉多个进程,发现nvidia-pm始终kill不掉,此方法在我电脑上不可行。

花费了好几个小时尝试,最后解决方法为:
1.卸载驱动
sudo apt-get purge nvidia*
2.查找可用的驱动版本
ubuntu-drivers devices

在这里插入图片描述

查找本机内核版本:

cat /proc/driver/nvidia/version

发现为440.33.01

于是尝试安装440版本的驱动:

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

然而安装失败,某些包不匹配,系统解决不了错误,卡了一会时间。

最终尝试安装415版本的,安装成功了

sudo apt-get install nvidia-driver-415 nvidia-settings nvidia-prime
3. 调整系统的驱动

ubuntu桌面->左下角九宫格->software & update->additional Drivers

现在可用更改gpu驱动,我这里选择了nvidia-driver-440(可能尝试其他也可以)。

点击apply changes,然后安装结束重启,

输入

nvidia-smi

显示:

在这里插入图片描述

终于成功

然后使用

conda install -c anaconda pytorch-gpu

即可。

底下评论

关于重启

大部分重启就好了,少部分重启了之后 nvidia-smi 卡主了,卡了一会儿就好了

sudo reboot前建议确保服务器重启后仍能正常连接

关于升级(谨慎)

可以sudo apt-get upgrade解决

亲测,没有用。做完后不重启机器执行 nvidia-smi,还是Failed to initialize NVML: Driver/library version mismatch

质数用户:

查了一下,是NVIDIA 内核驱动版本与系统驱动不一致导致的,但是我的机器出现好几次了,有什么办法避免这个问题吗?请问大佬们能不能支个招

阿越用户提问

我也遇到了几次了,请问你最后怎么解决的

质数用户回答

我尝试了几种思路:
1.最简单的是重启,貌似能解决;
2.重启不能解决就换重新安装了,后来就把一个固定的driver安装文件保存在本地,出了问题就重新sudo安装,好像也行,就是折腾;
3.固定版本,这个我试过,好像不咋好用;
4.设置驱动不更新,这个到目前为止还没出现问题。

上面4个方法是我都一一尝试过的,我用的系统是ubuntu的,具体方法也都是在知乎和csdn找的。

一般出问题都是跟新别的驱动时,自动把Nvidia的驱动更新了,从而导致这个问题。换句话说,要是能保证机器不联网,或者不用sudo去更新软件,一般来说都是稳定的。

而一旦出了上述问题,我最常用的办法是第2条,总结了一套固定的版本(包括驱动,cuda,cudnn)留在本地,除了问题就重新安装一次(一般重装驱动就可以了)

奥塔康007用户

最好是现purge掉已有的driver,然后通过apt install cuda-12-1或者别的什么版本,只要是最终需要用到的cuda sdk版本就行,cuda sdk会安装对应的driver 奥塔康007:Ubuntu Cuda安装?

YEAH用户

提个问题,我这边想使用pytorch 1.9就必须使用cuda10.2,就必须驱动版本是440以上,但是ubuntu-drivers 一直只显示384的驱动可以安装,这是linux内核版本太低的问题吗?

gocpplua用户

可能是有东西没有卸载干净吧,执行了sudo apt autoremove后好了

水dong方块用户

https://askubuntu.com/questions/1436506/how-to-resolve-unmet-dependencies-error-when-upgrading-depends-nvidia-kernel-c

感觉需要关掉自动更新, 又出现了

orioriomo用户

谢谢你~ 虽然没有用你的方法来解决,但是前面定位的思路给了很好的借鉴。我这边问题的原因是在安装其他包时自动更新了一个libnvidia-compute-515-server, 但我的系统内核 cat /proc/driver/nvidia/version看是440。按照思路重新安装了440-server就好使了,给大家借鉴下~

变形金刚用户

440-server指的是“sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime”这个吗?小白求问[发呆]

yujmo用户

我在实验室直接从官网下载的最新cuda装上去,出现了这个问题,按照你的教程,我把原先的实验环境恢复过来了。 我才刚来实验室,还是不要乱动的好

晏承言用户

是卸载了cuda吗?

雨布用户

解决了!避免了重装驱动cudacudnn,感谢!







深井冰二号

nvidia-smi指令报错:Failed to initialize NVML: Driver解决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坦笑&&life

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值