Ubuntu 20.04安装CUDA失败导致系统黑屏消息nvidia 0000:01:00.0: can't change power state from D3cold to D0 的解决方法
贺志国
前天,因为无聊,将CUDA 11.7升级到CUDA 12.0 ,安装完成后重启,系统黑屏,提示信息如下:
nvidia 0000:01:00.0: can't change power state from D3cold to D0
一看就是CUDA安装失败导致Nvidia显卡驱动异常了,于是只能在命令行中修复解决了。
一、进入命令行界面
我的电脑是联想Thinkbook,这个电脑选择开机菜单比较繁琐,具体方法如下:
- 开机按
shift+esc键进入grub菜单,选择ubuntu高级选项,注意不要一直按着shift+esc键不动,这样会直接进入grub提示界面,只需按一次即可; - 在显示的界面中选中相应内核的
recovery mode模式敲回车,到恢复模式主菜单界面; - 在恢复模式主菜单界面中选择
fsck check all filesystems,一直敲回车,直到再次返回到恢复模式主菜单界面; - 选中
root drop to root shell prompt敲回车,进入命令行界面。
二、删除CUDA 12.0
罪魁祸首肯定是CUDA 12.0,于是需要删除它,命令如下:
sudo apt-get --purge remove "*cublas*" "*cuda*" "nsight*"
删除 Nvidia 驱动程序:
sudo apt-get --purge remove "*nvidia*"
但上述命令基本上不能够将CUDA 12.0清理干净,使用如下命令查找:
sudo find / -iname "*ubuntu2004-12*"
sudo find / -iname "*cuda12*"

再使用rm -f命令将搜索到的文件全部删除。执行如下修复安装命令:
sudo apt-get --fix-broken install
重启电脑,就可重新进入Ubuntu图形化界面。
三、重新安装CUDA
CUDA程序可在进入图形化界面之前安装,也可在进入图形化界面后安装,只要确保网络连接正常就行。因为CUDA里面自带了Nvidia显卡驱动,因此安装CUDA前不需要安装Nvidia显卡驱动(安装不匹配的显卡驱动反而容易坏事)。
下面以我安装的CUDA 11.7为例,列出安装命令如下:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-7-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda
安装完毕后,使用如下命令验证安装是否正常
nvidia-smi
在Ubuntu20.04系统中,由于升级CUDA从11.7到12.0后导致系统黑屏。解决方法包括通过GRUB进入命令行模式,删除CUDA12.0及Nvidia驱动,使用`apt-get--purgeremove`和`find`命令清理残留,然后修复安装,最后重新安装CUDA11.7。安装成功后,通过`nvidia-smi`命令验证。
2972

被折叠的 条评论
为什么被折叠?



