在跑isaacgym的legged robot的时候,发现显卡挂掉了,不能用CUDA,因此使用nvidia-smi来查看显卡信息,没有出现显卡信息,但出现下面的错误
Failed to initialize NVML: Driver/library version mismatch
这表明内核驱动与系统驱动不匹配
查看驱动的内核版本
cat /proc/driver/nvidia/version
这一步可以看到内核版本kernel module的版本,我的是510.60.02
通过系统日志查看系统驱动
cat /var/log/dpkg.log | grep nvidia
这一步可以看到系统驱动,我的为510.73.05,这就表明,我的驱动不知道在啥时候自己更新了
接下来的工作
1.卸载驱动
2.重装510.60.02驱动
卸载驱动:
--sudo /usr/bin/nvidia-uninstall
--sudo apt-get --purge remove nvidia-*
--sudo apt-get purge nvidia*
--sudo apt-get purge libnvidia*
执行完上面四步,接下来执行
--sudo dpkg --list | grep nvidia-*
如果这步没有输出就表示可以开始重装驱动了
重装驱动 (我已经有驱动安装包了)
--sudo chmod a+x NVIDIA-Linux-x86_64-510.60.02.run
--sudo ./NVIDIA-Linux-x86_64-510.60.02.run -no-x-check -no-nouveau-check -no-opengl-files
遇到的问题
可能是我卸载驱动没干净的原因,安装驱动的时候出现了这个错误:
--An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel.
此时进行如下操作(这里的无窗口界面直接使用tty1~6也可以)
--sudo systemctl isolate multi-user.target(进入无窗口界面)
--sudo modprobe -r nvidia_drm(删除nvidia_drm)
--sudo ./NVIDIA-Linux-x86_64-510.60.02.run -no-x-check -no-nouveau-check -no-opengl-files(再次安装驱动)
--sudo systemctl start graphical.target(关闭无窗口界面)
此时 nvidia-smi,成果出现显卡信息
在运行ISAAC Gym的legged robot时遇到显卡故障,通过nvidia-smi检查发现驱动与内核版本不一致。经过分析,驱动已自动更新为510.73.05,而内核模块版本为510.60.02。为解决此问题,博主详细记录了卸载现有驱动并重新安装510.60.02版本的步骤,包括进入无窗口模式移除nvidia-drm模块,以及避免安装过程中出现的冲突问题。最终成功显示显卡信息。
1560

被折叠的 条评论
为什么被折叠?



