NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

解决nvidia-smi失败问题
本文介绍了解决nvidia-smi无法与NVIDIA驱动通信的问题。提供了两种方法:一是通过dkms安装指定版本的驱动;二是选择与当前显卡驱动兼容的旧版Ubuntu内核。

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Ma
ke sure that the latest NVIDIA driver is installed and running

遇到这个问题解决办法:
方法一:
cd /usr/src 查看驱动版本号(我的是410.93)
sudo apt-get install dkms
sudo dkms install -m nvidia -v 410.93
无需重启即可成功看到输入nvidia-smi后熟悉的界面

方法二:
uname -r
之前使用nvidia-smi命令能够成功显示显存的使用情况,但是最近就不行了,提示如下错误
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
查了网上好多的教程,有的说是bios需要设置安全权限,然后有的说重新安装一遍驱动程序就可以了,这些都没有解决我的问题,其实问题很简单是因为ubutnu内核升级了,新版本内核和显卡驱动不匹配出现了上面的问题,我们只需要在进行ubuntu启动引导的界面时,就是刚开始叫你选择操作系统的界面,选择“ubuntu高级选项”,选择一个以前的内核版本,我的新版本是4.15.0-43-generic
我然后选择了4.15.0-42-generic版本,然后进入系统再使用nvidia-smi命令就可以成功执行了。

### 解决方案 当遇到 `NVIDIA-SMI` 无法与 NVIDIA 驱动程序通信的问题时,通常是因为驱动未正确安装或运行环境存在问题。以下是可能的原因以及解决方案: #### 可能原因分析 1. **驱动版本不匹配**:已安装的 NVIDIA 驱动版本可能与当前 GPU 或操作系统需求不符[^1]。 2. **服务未启动**:某些情况下,即使驱动已安装完成,GPU 的相关服务(如 `nvidia-persistenced.service` 和 `nvidia-modprobe.service`)可能尚未正常加载[^2]。 3. **硬件兼容性问题**:如果使用的显卡型号较新而驱动版本过旧,则可能导致通信失败[^3]。 #### 检查方法 为了进一步确认问题所在,可以执行以下命令来获取更多信息: ```bash lsmod | grep nvidia ``` 上述命令用于查看内核模块中是否存在 NVIDIA 相关条目。如果没有输出任何内容,则表明驱动未能成功加载到内核中。 另外还可以尝试重新加载模块: ```bash sudo modprobe nvidia ``` #### 安装/修复步骤 对于已经通过 `sudo apt-get install -y cuda-drivers` 命令安装却仍然报错的情况,建议按照如下方式排查并解决问题: 1. 卸载现有驱动及其残留文件: ```bash sudo apt-get --purge remove "*cuda*" "nvidia*" ``` 2. 更新系统包索引表,并清理缓存数据: ```bash sudo apt update && sudo apt upgrade -y sudo apt autoremove -y ``` 3. 添加官方 PPA 资源库以便获得最新稳定版驱动支持: ```bash distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt update ``` 4. 再次安装适合本机配置的最佳推荐驱动组合: ```bash sudo ubuntu-drivers autoinstall ``` 5. 最后重启计算机使更改生效前先禁用 nouveau 开源图形栈以免冲突干扰: ```bash echo 'blacklist nouveau' | sudo tee -a /etc/modprobe.d/blacklist.conf echo 'options nouveau modeset=0' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u reboot now ``` 完成以上操作之后再试一次输入 `nvidia-smi` 查看状态是否恢复正常。 --- ### 注意事项 - 如果仍存在错误提示,请核查 BIOS 设置里是否有针对集成显卡优先级选项调整为独显模式开启;或者考虑更换更高适配性的专用驱动版本测试效果如何变化。 ---
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值