问题
某一天使用torch2.6.0+cu124发现无法使用gpu版本的pytorch,
此时输入nvidia-smi发现找不到gpu的驱动
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
尝试和解决
1)先尝试从Software& Updates更新驱动,但没有效果
Using NVIDIA driver metapackage from nvidia-driver-570(proprietary)
2)尝试卸载驱动后用apt install安装,还是不行(未必真的不行,也有可能是因为此时还是远程安装没接显示器)
sudo apt purge nvidia # 彻底卸载现有驱动
sudo apt autoremove
sudo reboot # 重启
sudo apt install nvidia-driver-580
3)根据另外一个朋友成功用.run安装的尝试
////////卸载nvidia驱动
sudo apt purge nvidia cuda vdpau libnvidia
sudo apt autoremove --purge
sudo apt-get remove --purge nvidia-*
////在nvidia官网搜索对应的驱动程序NVIDIA-Linux-x86_64-570.181.run并下载
////////关闭 nouveau(在安装run.sh里会有提示,最关键的是重启后会需要进入蓝白色界面加载驱动,所以这个时候不能使用.ssh的远程方式看,而是需要接着显示器去操作)
vim /etc/modprobe.d/blacklist.conf
blacklist nouveau
options nouveau modeset=0
update-initramfs -u
rmmod nouveau
lsmod | grep nouveau
./NVIDIA-xxxx.run
/usr/share/nvidia/nvidia-modsign-crt-E5277E61.der
E5:27:7E:61:EA:4B:7A:C9:93:73:2F:BD:26:D7:BC:B4:D3:D8:47:3F
/usr/share/doc/NVIDIA_GLX-1.0/README.txt
reboot
sudo mokutil --import /usr/share/nvidia/nvidia-modsign-crt-E5277E61.der
reboot
///////加载驱动
(1)当进入蓝色背景的界面perform mok management 后,选择 enroll mok ,
(2)进入enroll mok 界面,选择 continue ,
(3)进入enroll the key 界面,选择 yes,
(4)接下来输入你在安装驱动时输入的密码,
(5)之后会跳到蓝色背景的界面perform mok management选择第一个 reboot
成功安装后nvidia-smi正常了
总结
显示驱动的安装有时还是需要接上显示器来看的,因为远程去看很可能就跳过了一些步骤,特别是重启进入类似bios的步骤。实际操作还是需要多折腾,大模型的回答或许可以参考但还不能适配各种实际情况。
618

被折叠的 条评论
为什么被折叠?



