在Centos上为Tesla T4显卡安装NVIDIA驱动以及cuda和cudnn

部署运行你感兴趣的模型镜像

前期准备:

升级gcc编译环境:

查看gcc版本:

gcc -v        (centos默认好像是4.8.5版本)

升级gcc:

yum install centos-release-scl
yum install devtoolset-9-gcc*

备份旧链接创建新链接:

mv /usr/bin/gcc /usr/bin/gcc-4.8.5
mv /usr/bin/g++ /usr/bin/g++-4.8.5
ln -s /opt/rh/devtoolset-9/root/usr/bin/gcc /usr/bin/gcc
ln -s /opt/rh/devtoolset-9/root/usr/bin/g++ /usr/bin/g++
mv /usr/bin/cc /usr/bin/cc-4.8.5
mv /usr/bin/c++ /usr/bin/c++-4.8.5
ln -s /usr/bin/gcc /usr/bin/cc
ln -s /usr/bin/g++ /usr/bin/c++

安装完再看一下版本,打印:

安装与内核版本一致的kernel-devel:

查看内核版本:

uname -a

yum list | grep kernel-

如果不一致,则安装与内核版本一致的kernel-devel:

yum install "kernel-devel-uname-r == $(uname -r)"

安装完可以看到

(通常会安装在/usr/src/kernels里,里面可能有多个,后面安装显卡驱动的时候如果找不到可以指定)

重启系统:reboot

屏蔽系统自带的nouveau:

查看是否屏蔽:

lsmod | grep nouveau

如果没有输出则说明已经屏蔽,否则需要手动屏蔽;

编辑dist-blacklist.conf文件:

vi /lib/modprobe.d/dist-blacklist.conf

用#注释掉nvidiafb:#blacklist nvidiafb

添加两条:

blacklist nouveau
options nouveau modeset=0

(如果没有该文件可以直接新建一个/etc/modprobe.d/blacklist-nouveau.conf,添加这两条)

重建initramfs image:

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启系统 reboot

如果使用的界面centos,安装驱动时要切到使用文本模式:

查看使用模式:

systemctl get-default

关闭GUI,使用文本模式:

systemctl set-default multi-user.target

(等安装完驱动可以systemctl set-default graphical.target切回GUI)

重启系统 reboot

安装NVIDIA显卡驱动:

查看系统显卡:

lspci | grep -E "NVIDIA|VGA"

lshw -numeric -C display

查看是否安装驱动:nvidia-smi

去官网下载驱动:官方驱动 | NVIDIA

选择自己的显卡驱动:

可以查看是否支持自己的显卡,然后下载:

为驱动添加执行权限:chmod a+x NVIDIA-Linux-x86_64-550.54.15.run

安装驱动:

./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files

(不添加执行权限也可以sh NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files)

如果找不到之前安装的内核可以使用参数指定:--kernel-source-path

我的/usr/src/kernels下有两个

指定参数:./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files --kernel-source-path=/usr/src/kernels/3.10.0-1160.118.1.el7.x86_64

(提示安装32位的可以自己选择安不安装)

安装完查看结果:nvidia-smi

(卸载驱动使用:./NVIDIA-Linux-x86_64-550.54.15.run --uninstall)

安装合适版本的cuda:

驱动版本和cuda版本对应关系:CUDA 12.5 Release Notes (nvidia.com)

下载对应版本的cuda:CUDA Toolkit Archive | NVIDIA Developer

选择自己的系统版本,可以下载rpm或者runfile的,看自己喜好选一个安装方法,选完系统下面自动有安装方法,照着执行就可:

还是run简单些,下载好run文件安装:

./cuda_12.4.1_550.54.15_linux.run

需要等待一会,然后显示,输入accept,然后选择install,安装;

等待安装结果,输出像下面这样:

===========
= Summary =
===========

Driver:   Installed
Toolkit:  Installed in /usr/local/cuda-12.4/

Please make sure that
 -   PATH includes /usr/local/cuda-12.4/bin
 -   LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
Logfile is /var/log/cuda-installer.log

通常是安装在/usr/local/cuda-12.4下,记下安装目录配置环境变量:

编辑环境变量:vi /etc/profile

添加四行:

PATH=$PATH:/usr/local/cuda-12.4/bin/
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.4/lib64
export PATH
export LD_LIBRARY_PATH

使配置生效:source /etc/profile

查看cuda信息:

nvcc --version

(卸载cuda,run安装的在/usr/local/cuda/bin目录下有个uninstall自带卸载程序)

安装cuDNN加速:

官网选择合适版本下载:cuDNN Archive | NVIDIA Developer

(需要申请个NVIDIA的账号下载)

下载好后,解压:tar -Jxvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz

将解压后的include文件夹里全部文件复制到cuda目录的include里,将lib文件夹里全部文件复制到cuda的lib64里:

cp cudnn目录/include/* /usr/local/cuda-版本号/include
cp cudnn目录/lib/* /usr/local/cuda-版本号/lib64

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch 2.6

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

<think>好的,用户的问题是在CentOS 7.9上安装NVIDIA T4显卡驱动的方法。我需要根据提供的引用内容来整理步骤。 首先,用户提供的引用有三个。引用1提到了使用sudo sh运行.run文件并带有一些参数,比如-no-x-check等。引用2指出需要到NVIDIA官网搜索驱动,引用3则涉及到Docker的配置,可能是在安装驱动后的容器设置。 接下来,我需要将步骤分清楚。首先应该是下载正确的驱动NVIDIA T4属于Tesla系列吗?或者需要确认具体型号对应的驱动。但根据常见情况,T4通常使用相同的驱动,所以用户需要到官网查找对应CentOS 7.9的驱动版本。 然后,安装前的准备工作,比如禁用nouveau驱动,这在引用1的参数里有提到,但可能需要手动操作,比如修改blacklist.conf文件。此外,确保系统更新,安装kernel headers开发工具,这些是安装驱动的常见依赖。 安装过程中,运行.run文件时,用户可能需要添加参数,如引用1中的-no-x-check等,以避免图形界面冲突。此外,安装完成后需要配置Docker(如引用3的内容),可能是在使用GPU容器时需要设置的daemon.json配置。 最后,验证安装是否成功,使用nvidia-smi命令检查。另外,用户可能需要重启系统,确保驱动加载正确。 需要确保步骤清晰,按照正确的顺序:下载驱动→准备环境→安装驱动→配置容器→验证。同时,注意引用对应的来源,比如禁用nouveau的步骤可能没有直接提到,但根据一般知识补充,但如果有引用中的参数,可能需要结合说明。 另外,用户提供的引用中有关于Docker运行时配置的部分,是否需要包含在驱动安装步骤中?可能用户需要安装驱动后,配置Docker以使用GPU,所以应该作为后续步骤的一部分。 所以,整理后的步骤应该是: 1. 下载驱动(引用2) 2. 安装前准备(禁用nouveau,安装依赖) 3. 安装驱动(引用1的命令) 4. 验证安装nvidia-smi) 5. Docker配置(引用3的内容) 需要检查每个步骤是否正确对应引用内容,并确保没有遗漏关键点。例如,禁用nouveau可能需要具体命令,而引用1中的参数可能已经处理了部分,但可能仍需手动禁用,避免冲突。 可能还需要注意安装命令中的参数是否正确,如-no-opengl-files是否必要,以及如何处理图形界面安装的情况。另外,安装后的配置是否需要重启,或者加载模块。 总结:按照官网指引下载驱动,执行安装命令并添加参数,然后配置Docker。同时确保引用正确标注。</think>### 在 CentOS 7.9 上安装 NVIDIA T4 GPU 驱动程序的步骤 #### 1. **下载 NVIDIA 驱动程序** - 访问 [NVIDIA 官方驱动下载页面](https://www.nvidia.cn/drivers/lookup/),输入显卡型号 **T4** 操作系统 **Linux 64-bit**,选择匹配的驱动版本(例如 `NVIDIA-Linux-x86_64-<版本号>.run`)[^2]。 - 使用 `wget` 命令下载驱动文件到服务器: ```bash wget https://us.download.nvidia.com/tesla/<驱动版本>/NVIDIA-Linux-x86_64-<版本号>.run ``` #### 2. **安装前准备工作** - **禁用 Nouveau 驱动**(开源驱动): 1. 创建配置文件: ```bash echo "blacklist nouveau" >> /etc/modprobe.d/blacklist.conf ``` 2. 更新内核初始化文件并重启: ```bash sudo dracut --force sudo reboot ``` - **安装依赖项**: ```bash sudo yum install -y kernel-devel kernel-headers gcc make ``` #### 3. **安装 NVIDIA 驱动** - 赋予驱动文件执行权限: ```bash chmod +x NVIDIA-Linux-x86_64-*.run ``` - 执行安装命令(添加参数避免图形界面冲突): ```bash sudo ./NVIDIA-Linux-x86_64-*.run --no-x-check --no-nouveau-check --no-opengl-files ``` 根据提示完成安装[^1]。 #### 4. **验证安装** - 运行以下命令检查驱动是否生效: ```bash nvidia-smi ``` 若输出包含 T4 显卡信息(如 CUDA 版本、显存占用等),则安装成功。 #### 5. **配置 Docker 支持(可选)** - 若需在 Docker 容器中使用 GPU,编辑 `/etc/docker/daemon.json`,添加以下内容: ```json { "default-runtime": "nvidia", "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } } } ``` 重启 Docker 服务: ```bash sudo systemctl restart docker ``` [^3] --- ### 相关问题 1. 如何解决安装 NVIDIA 驱动后系统无法进入图形界面的问题? 2. 如何在 Kubernetes 集群中启用 NVIDIA T4 GPU 的资源调度? 3. 如何验证 Docker 容器是否能正确识别 NVIDIA GPU? --- 以上步骤结合了 CentOS 7.9 的特性 NVIDIA 驱动安装要求,确保兼容性与稳定性。若安装失败,可尝试切换驱动版本或检查内核依赖是否完整。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值