ubuntu安装cuda驱动报错及解决,屡试不爽

本文详细介绍了在Ubuntu系统中安装CUDA驱动时可能遇到的各种错误及解决方案,包括驱动与库版本不匹配、nvidia-uvm模块冲突、Nouveau驱动干扰等问题,并提供了具体的步骤和命令来逐一排除故障。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 机器重启输入nvidia-smi提示如下错误,字面意思就是驱动和库不匹配

Failed to initialize NVML: Driver/library version mismatch

查看一下nvidia相关库

sudo dpkg --list | grep nvidia-*

将所有已安装库卸载

sudo apt purge nvidia-*

重新安装驱动

sudo ./NVIDIA-Linux-x86_64-515.76.run -no-x-check --no-opengl-files

2. 提示nvidia-uvm已加载进内核,是因为有引用已启动并且在使用nvidia相关进程

查看英伟达先关内核模块

sudo lsmod | grep nvidia

提示nvidia-uvm已加载,关闭用到的cuda的程序就行了,关闭方法如下:

查看已经启动的进程

sudo lsof /dev/nvidia*

关闭已启动的进程helio

sudo killall helio

3. 提示The Nouveau kernel driver is currently in use by your system

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

添加内容

blacklist nouveau
options nouveau modeset=0

应用

sudo update-initramfs -u
sudo reboot

3. 安装 gcc & make

sudo apt install build-essential

如果提示 cc: error: unrecognized command-line option '-ftrivial-auto-var-init=zero'

升级gcc

sudo apt install gcc-12
sudo ln -sf /usr/bin/gcc-12 /etc/alternatives/cc

安装驱动,提示成功

sudo ./NVIDIA-Linux-x86_64-515.76.run -no-x-check --no-opengl-files

测试nvidia-smi -t 1

### 解决方案概述 在 Ubuntu 18.04 上安装 CUDA 遇到错误可能由多种原因引起,例如优先级设置不当、依赖项缺失或软件源配置不正确。以下是针对该问题的具体解决方案。 --- #### 一、优先级设置调整 为了确保 CUDA 软件仓库具有较高的优先级,可以通过创建 pin 文件来实现这一目标。具体操作如下: 运行以下命令以获取并移动 `cuda-ubuntu1804.pin` 文件至指定目录: ```bash $ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin $ sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600 ``` 此步骤有助于防止其他版本的库覆盖 CUDA 安装所需的特定版本[^1]。 --- #### 二、手动下载 TensorFlow GPU 版本轮子文件 如果在安装过程中某些 Python 包(如 NumPy、Six、Protobuf 或 Wheel)无法正常下载,则可以尝试手动安装这些包。通过以下方法解决依赖问题: 使用以下命令手动安装 TensorFlow 的 GPU 支持版本: ```bash sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.8.0-cp27-none-linux_x86_64.whl ``` 这一步骤能够有效处理因网络连接不稳定而导致的部分依赖包未能成功下载的情况[^2]。 --- #### 三、卸载已损坏的 PyTorch 安装 当先前安装的 PyTorch 可能干扰当前环境时,建议彻底清除旧版安装后再重新构建新环境。执行以下指令完成清理工作: 首先利用 Pip 工具移除现有 PyTorch 组件: ```bash pip uninstall torch ``` 接着进入 PyTorch 源码所在路径,并调用其自带脚本来进一步净化残留数据: ```bash python setup.py clean ``` 上述过程可减少潜在冲突风险,从而提升后续 CUDA 设置成功率[^3]。 --- ### 总结 综合以上措施——即合理设定 APT 存储库偏好级别、预先准备好必要的外部资源以及妥善处置既有框架遗留影响——通常足以克服大多数与之关联的技术难题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

telllong

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值