UBUNTU22.04无法安装nvidia-driver-550 依赖于 nvidia-dkms-550 (<= 550.54.15-1)

类似的报错信息,就是卡在了nvidia-dkms-550无法安装

Loading new nvidia-550.40.07 DKMS files…
Building for 6.5.0-15-generic
Building for architecture x86_64
Building initial module for 6.5.0-15-generic
ERROR: Cannot create report: [Errno 17] File exists: ‘/var/crash/nvidia-dkms-550.0.crash’
Error! Bad return status for module build on kernel: 6.5.0-15-generic (x86_64)
Consult /var/lib/dkms/nvidia/550.40.07/build/make.log for more information.
dpkg: error processing package nvidia-dkms-550 (–configure):
installed nvidia-dkms-550 package post-installation script subprocess returned error exit status 10
Setting up libnvidia-encode-550:amd64 (550.40.07-0ubuntu0~gpu23.10.1) …
Setting up libnvidia-encode-550:i386 (550.40.07-0ubuntu0~gpu23.10.1) …
dpkg: dependency problems prevent configuration of nvidia-driver-550:
nvidia-driver-550 depends on nvidia-dkms-550 (<= 550.40.07-1); however:
Package nvidia-dkms-550 is not configured yet.
nvidia-driver-550 depends on nvidia-dkms-550 (>= 550.40.07); however:
Package nvidia-dkms-550 is not configured yet.
dpkg: error processing package nvidia-driver-550 (–configure):
dependency problems - leaving unconfigured
No apport report written because the error message indicates its a followup error from a previous failure.

原因

GCC版本问题,虽然官方说6.0~13.0版本都支持。。但我这个gcc-11.4就是不行.于是更新gcc-12成功再去安装,成功解决!!

解决方案

首先,清除之前的相关文件,我们重新安装一遍。
sudo apt-get --purge remove "*nvidia*" "libxnvctrl*"

安装gcc12

# 查看之前的版本
> gcc --version
gcc-11 (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
Copyright (C) 2021 Free Software Foundation, Inc.

> sudo apt-get install gcc-12 # 安装gcc12
# 将他添加到gcc备选组中,且设置优先级为12
> sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-12 12

  • /usr/bin/gcc 主链接
  • gcc 组名
  • /usr/bin/gcc-12 要添加进组的链接
  • 12 优先级,越高约优先

查看gcc的链接设置

> sudo update-alternatives --config gcc

重新安装NVIDIA-DRIVER-550

我采用的是手动安装,而不是apt安装,
下载驱动的地址:
https://www.nvidia.cn/download/index.aspx

安装方式

# 添加执行权限
> sudo chmod +x "NVIDIA-Linux-x86_64-550.78.run"
# 执行安装
> sudo bash "NVIDIA-Linux-x86_64-550.78.run"

完成 🐳


分割线


尝试无效的方法

正常安装流程无效

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-550

手动下载库nvidia-dkms-550,安装也无效。

在ADDITIONAL DRIVER里面下载也无效 也会报错
即使有这个550驱动来源,也无法切换。
在这里插入图片描述

<think>嗯,用户想在Ubuntu 22安装CUDA 12.4和NCCL库。我得先检查一下CUDA 12.4的兼容性。根据引用[2],Hopper架构的H100需要nvidia-driver-550CUDA 12.4,而Ubuntu 22.04 LTS在Ampere架构用的是驱动535和CUDA 12.3。不过用户要用CUDA 12.4,可能驱动需要升级到550。 首先,系统是Ubuntu 22.04,用户需要确认显卡型号。根据引用[1],用户用的是RTX 4060 Mobile,属于Ada Lovelace架构。引用[2]中提到Ada架构推荐驱动535和CUDA 12.3,但用户要装CUDA 12.4,可能需要更高驱动。不过引用[2]里Hopper架构需要驱动550CUDA 12.4,可能这里可以通用? 接下来,步骤应该是安装驱动550。引用[3]提到用ubuntu-drivers devices查看可用驱动,但需要添加正确的驱动源。可能需要添加NVIDIA官方仓库或者使用graphics-drivers PPA。 然后,安装CUDA 12.4。官网的runfile可能更直接,避免包管理器版本冲突。安装完成后要配置环境变量,加入PATH和LD_LIBRARY_PATH。 接着安装NCCL库。CUDA Toolkit可能已经包含NCCL,但用户可能需要特定版本,所以需要从NVIDIA官网下载deb包安装。同时要确认CUDA和NCCL版本兼容性,CUDA 12.4对应NCCL 2.19.x以上。 依赖项方面,需要安装build-essential、dkms等,如引用[3]中的命令。同时,安装完成后要验证驱动和CUDA版本,使用nvidia-smi和nvcc -V检查。还要测试NCCL,可能需要下载测试样例编译运行。 兼容性方面,用户是Ada架构,引用[2]建议驱动535和CUDA 12.3,但用户需要12.4,可能需要驱动550。不过需要确认驱动550是否支持Ada架构。可能引用[2]中Hopper的配置同样适用于Ada,或者需要查看NVIDIA官方文档确认。 可能的问题:驱动版本和CUDA版本的兼容性,以及NCCL与CUDA的匹配。需要确保三者版本一致。此外,安装方式(runfile或deb)的不同可能导致路径问题,需要注意环境变量设置。 最后,生成相关问题,涉及CUDA版本差异、NCCL多GPU配置、驱动兼容性排查等。</think>### 分步安装指南 #### 一、系统环境准备 1. **更新系统包** ```bash sudo apt update && sudo apt upgrade -y ``` 2. **安装编译依赖项** ```bash sudo apt install build-essential gcc-multilib dkms gcc g++ make linux-headers-$(uname -r) -y ``` 这些工具用于内核模块编译和驱动安装[^3]。 --- #### 二、安装NVIDIA驱动550 1. **添加官方驱动仓库** ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ``` 2. **安装驱动550** ```bash sudo apt install nvidia-driver-550 -y ``` 重启后验证: ```bash nvidia-smi # 应显示Driver Version: 550.x ``` --- #### 三、安装CUDA 12.4 1. **下载CUDA 12.4安装包** 从[NVIDIA官网](https://developer.nvidia.com/cuda-toolkit-archive)选择: ```bash wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run ``` 2. **执行安装** ```bash sudo sh cuda_12.4.0_550.54.14_linux.run ``` *取消勾选驱动安装(已单独安装)* 3. **配置环境变量** 在`~/.bashrc`末尾添加: ```bash export PATH=/usr/local/cuda-12.4/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH ``` 生效配置: ```bash source ~/.bashrc ``` 4. **验证安装** ```bash nvcc --version # 应显示release 12.4 ``` --- #### 四、安装NCCL库 1. **下载NCCL 2.19.3(适配CUDA 12.4)** ```bash wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/nccl-local-repo-ubuntu2204-2.19.3-cuda12.4_1.0-1_amd64.deb ``` 2. **安装与验证** ```bash sudo dpkg -i nccl-local-repo-ubuntu2204-2.19.3-cuda12.4_1.0-1_amd64.deb sudo apt update sudo apt install libnccl2 libnccl-dev -y ``` --- #### 五、兼容性说明 1. **架构支持** - RTX 4060 Mobile(Ada Lovelace架构)支持CUDA 12.4的FP32/FP16运算加速[^2] - 需确保`nvidia-smi`显示的驱动版本≥550 2. **版本匹配** CUDA 12.4要求NCCL≥2.19.x,否则会出现`libnccl.so`不兼容错误 --- #### 六、测试多GPU通信 ```bash git clone https://github.com/NVIDIA/nccl-tests.git cd nccl-tests make ./build/all_reduce_perf -b 8 -e 256M -f 2 -g 2 # 测试双卡带宽 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值