Ubuntu18.04 NVIDIA解决Failed to initialize NVML: Driver/library version mismatch

在运行ISAAC Gym的legged robot时遇到显卡故障,通过nvidia-smi检查发现驱动与内核版本不一致。经过分析,驱动已自动更新为510.73.05,而内核模块版本为510.60.02。为解决此问题,博主详细记录了卸载现有驱动并重新安装510.60.02版本的步骤,包括进入无窗口模式移除nvidia-drm模块,以及避免安装过程中出现的冲突问题。最终成功显示显卡信息。
部署运行你感兴趣的模型镜像

在跑isaacgym的legged robot的时候,发现显卡挂掉了,不能用CUDA,因此使用nvidia-smi来查看显卡信息,没有出现显卡信息,但出现下面的错误

Failed to initialize NVML: Driver/library version mismatch

这表明内核驱动与系统驱动不匹配

查看驱动的内核版本

cat /proc/driver/nvidia/version

这一步可以看到内核版本kernel module的版本,我的是510.60.02

通过系统日志查看系统驱动

cat /var/log/dpkg.log | grep nvidia

这一步可以看到系统驱动,我的为510.73.05,这就表明,我的驱动不知道在啥时候自己更新了

接下来的工作

1.卸载驱动

2.重装510.60.02驱动

 卸载驱动:

--sudo /usr/bin/nvidia-uninstall
--sudo apt-get --purge remove nvidia-*
--sudo apt-get purge nvidia*
--sudo apt-get purge libnvidia*
 

执行完上面四步,接下来执行

--sudo dpkg --list | grep nvidia-*
如果这步没有输出就表示可以开始重装驱动了

 

重装驱动 (我已经有驱动安装包了)

--sudo chmod a+x NVIDIA-Linux-x86_64-510.60.02.run
--sudo ./NVIDIA-Linux-x86_64-510.60.02.run -no-x-check -no-nouveau-check -no-opengl-files

 

遇到的问题

可能是我卸载驱动没干净的原因,安装驱动的时候出现了这个错误:

--An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel. 

此时进行如下操作(这里的无窗口界面直接使用tty1~6也可以)

--sudo systemctl isolate multi-user.target(进入无窗口界面)

--sudo modprobe -r nvidia_drm(删除nvidia_drm)

--sudo ./NVIDIA-Linux-x86_64-510.60.02.run -no-x-check -no-nouveau-check -no-opengl-files(再次安装驱动)

--sudo systemctl start graphical.target(关闭无窗口界面)

此时 nvidia-smi,成果出现显卡信息

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值