【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)

本文介绍了在Ubuntu 18.04系统中遇到'Failed to initialize NVML: Driver/library version mismatch'问题的解决方案,重点在于如何在不重启服务器的情况下,通过卸载并重新加载nvidia驱动来修复驱动和内核版本不一致的问题,包括详细的操作步骤和注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目场景:

在带有GPU的linux上执行 "nvidia-smi",提示Failed to initialize NVML: Driver/library version mismatch。 因为这个原因,导致我们无法使用GPU,从而无法进行深度学习等相关的任务。 另外,因为是实验室的服务器,虽然网上好多人都说,重启 `reboot`指令可以解决问题,但是因为服务器是实验室的,我们不能进行重启。 所以我找到了一种不重启,解决这个问题的方法。

问题描述:

系统: Ubuntu18.04
问题: 执行nvidia-smi 指令提示:“Failed to initialize NVML: Driver/library version mismatch”,即显卡的驱动和内核版本不匹配
导致问题的原因:我之前没有进行任何和驱动有关的操作,所以导致该问题的原因应该是系统自动更新驱动,导致了版本不匹配的问题,非人为因素。

接下来我们看下具体版本冲突情况:

  1. 查看驱动的版本:
    dpkg -l | grep nvidia

在这里插入图片描述
我们看到驱动的版本是495.29.95
2. 查看内核的版本
在这里插入图片描述
我们看到内核的版本是495.29.44(虽然图上的是44.29.05,但是我之前有问题的时候显示的内核版本号为495.29.44)

原因分析:

由上面的分析,我们知道导致问题的原因是:
Ubuntu显卡驱动自动更新,导致更新后的驱动程序和系统正在使用的内核程序版本不一致了。所以解决问题的思路就是让其版本一致即可。一种方法是重新启动服务器,这样内核会重新加载对应升级后的驱动版本作为内核版本,本文章介绍不用重启的方法。

解决方案:

总体的思路分为两步:

  1. 退出当前内核使用的显卡模块
  2. 重新加载升级后版本的显卡驱动作为我们的内核模块

指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载

如果用户正在使用到nvidia的内核,则执行sudo rmmod nvidia指令的时候,会提示如下错误


$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm

查看nvidia模块使用情况


$lsmod | grep nvidia
nvidia_uvm            647168  0
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12144640  152 nvidia_modeset,nvidia_uvm            12144640  152 nvidia_modeset,nvidia_uvm

这就需要我们来手动地关闭nvidia_modsetnvidia_uvm服务。
查看所有的nvidia相关的进程

sudo lsof -n -w  /dev/nvidia*

然后,我们通过kill -9 PID 终止掉和nvidia_uvm,nvidia_modeset有关的进程。然后再重新执行如下的指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载

最后,正常情况下问题就解决了。
如果还没有解决,通过如下指令终止nvidia的相关服务

sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

再执行

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候,会自动装载
### 解决 PP-OCRv4 出现的错误 当遇到 `WARNING: The pretrained params backbone.blocks2.0.dw_conv.lab.scale not in model` 这样的警告时,这通常意味着预训练模型中的某些参数未能匹配到当前配置下的模型结构中[^2]。 对于此问题的一个有效解决方案是采用特定配置文件来适配预训练权重。具体操作方法如下: 通过指定配置文件 `ch_PP-OCRv4_det_student.yml` 并利用已有的最佳精度预训练模型 (`best_accuracy`) 来启动训练过程可以绕过上述不兼容的问题。执行命令如下所示: ```bash python3 tools/train.py -c configs/det/ch_PP-OCRv4/ch_PP-OCRv4_det_student.yml ``` 该方案不仅解决了参数缺失带来的警告,还能够继续基于高质量的预训练成果进行微调,从而提升最终检测效果。 关于蒸馏的概念,在机器学习领域内指的是将大型复杂网络(teacher 模型)的知识迁移到小型简单网络(student 模型)。这里 student 和 teacher 的关系是指两个不同规模或架构的神经网络之间的指导与被指导的关系;其中 teacher 已经经过充分训练并具有良好的性能,而 student 则试图模仿前者的行为模式以达到相似的效果但保持更高效的计算特性。 至于提到的 `Traceback` 错误信息部分,由于未提供具体的跟踪堆栈详情,难以给出针对性建议。不过一般而言,这类报错往往涉及代码逻辑错误或是环境配置不当等问题。为了更好地帮助定位和解决问题,推荐记录完整的异常日志,并仔细检查最近修改过的代码片段以及确认依赖库版本的一致性。
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wumbuk

您的支持是我坚持的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值