centos下安装双GPU卡

本文提供了一个用于初始化CUDA环境的shell脚本示例,并详细介绍了如何确保GPU驱动正确加载及权限设置,以便顺利运行CUDA应用程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果两个GPU卡都不接显示器,则要注意把GPU卡的驱动手动加载,具体可参阅下面的shell程序。

 

From the releasenotes:


----------------------------------------
Linux
----------------------------------------
* In order to run CUDA applications, the CUDA module must be loaded and the
entries in /dev created. This may be achieved by initializing X Windows, or
by creating a script to load the kernel module and create the entries. An
example script (to be run at boot time):
#!/bin/bash

/sbin/modprobe nvidia

if [ "$?" -eq 0 ]; then

# Count the number of NVIDIA controllers found.
N3D=`/sbin/lspci | grep -i NVIDIA | grep "3D controller" | wc -l`
NVGA=`/sbin/lspci | grep -i NVIDIA | grep "VGA compatible controller" | wc -l`

N=`expr $N3D + $NVGA - 1`
for i in `seq 0 $N`; do
mknod -m 666 /dev/nvidia$i c 195 $i;
done

mknod -m 666 /dev/nvidiactl c 195 255

else
exit 1
fi
------------------------------------------------------

还有相关的关于GPU驱动的说明

1) Check that you have a CUDA capable GPU: /sbin/lspci |grep -y nvidia

This should report a VGA or 3D controller

2) Check that the nvidia module is loaded and it is the right version: cat /proc/driver/nvidia/version

For CUDA 4.1, it should report 285.05.33

3) Check that you have the right permissions for the /dev/nvidia* files: ls -l /dev/nvidia*

The output should be similar to this if you are using the script in the release notes to load the module( 4.1 omitted it by mistake, look for an old one)
crw-rw-rw- 1 root root 195, 0 Jan 10 16:11 /dev/nvidia0
crw-rw-rw- 1 root root 195, 255 Jan 10 16:11 /dev/nvidiactl

or if you are the only user on the machine and are running X, the files should belong to you

<think>我们正在讨论如何在CentOS安装NVIDIA显驱动。根据用户提供的引用和问题,我将整合一个完整的安装步骤。注意,用户提供的引用中有一些不一致的地方(例如,有的步骤提到使用.run文件安装,有的提到使用CUDA安装包),我将以最常用的.run驱动文件安装方式为主线,同时参考CentOS系统的最佳实践。安装步骤概览:1.安装依赖2.禁用nouveau驱动(系统自带的驱动)3.切换到文本模式(多用户模式)4.重启系统5.赋予驱动安装文件执行权限并运行安装6.验证安装详细步骤:###1.**安装依赖包**```bashsudoyumgroupinstall"DevelopmentTools"sudoyuminstallkernel-develkernel-headerssudoyuminstallepel-releasesudoyuminstalldkms```>注意:确保内核版本与`kernel-devel`包版本一致,可通过`uname-r`查看内核版本,并安装对应版本的`kernel-devel`[^3]。###2.**禁用nouveau驱动**编辑配置文件:```bashsudovi/etc/modprobe.d/blacklist.conf```在文件末尾添加:```bashblacklistnouveauoptionsnouveaumodeset=0```保存退出后,执行以下命令重建initramfs:```bashsudomv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r).img.baksudodracut-v/boot/initramfs-$(uname-r).img$(uname-r)```###3.**切换到文本模式**```bashsudosystemctlset-defaultmulti-user.target```###4.**重启系统**```bashsudoreboot```###5.**下载并安装NVIDIA驱动**从NVIDIA官网下载对应显的驱动(.run文件)[^3]。例如,下载驱动文件为`NVIDIA-Linux-x86_64-xxx.xx.run`,然后执行:```bashchmod+xNVIDIA-Linux-x86_64-xxx.xx.runsudo./NVIDIA-Linux-x86_64-xxx.xx.run```安装过程中,选择接受许可(Accept),并选择“Yes”安装32位兼容库(如果提示)。如果提示是否使用DKMS,建议选择“Yes”(如果有该选项)[^2]。###6.**验证安装**```bashnvidia-smi```如果显示出显信息,则表示安装成功。###7.**恢复图形模式(可选)**如果需要图形界面,可以切换回图形模式:```bashsudosystemctlset-defaultgraphical.targetsudoreboot```###常见问题解决-**安装过程中提示缺少依赖**:根据提示安装相应依赖包。-**安装过程中提示与nouveau冲突**:请确认是否已正确禁用nouveau驱动,并重启。-**安装后无法进入图形界面**:可能是驱动与当前图形环境不兼容,可尝试在安装时加上`--no-opengl-files`选项(在运行安装命令时添加)[^1]。>注意:如果使用虚拟机,通常不需要安装NVIDIA显驱动,因为虚拟机通常使用虚拟显。§§相关问题§§1.如何更新NVIDIA显驱动?2.如何在CentOS安装CUDAToolkit?3.如何解决安装NVIDIA驱动后系统无法启动的问题?4.如何在CentOS上配置切换?</think>### 在 CentOS安装 NVIDIA 显驱动完整指南 #### 1. **准备工作** ```bash # 安装编译依赖 sudo yum -y install gcc make kernel-devel kernel-headers epel-release # 查看内核版本(必须与kernel-devel版本一致) uname -r ``` #### 2. **禁用 Nouveau 驱动** [^3] ```bash # 创建屏蔽文件 sudo tee /etc/modprobe.d/blacklist-nouveau.conf <<EOF blacklist nouveau options nouveau modeset=0 EOF # 重建 initramfs sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r) ``` #### 3. **切换运行模式** ```bash # 切换到文本模式 sudo systemctl set-default multi-user.target sudo reboot ``` #### 4. **下载 NVIDIA 驱动** 访问 [NVIDIA 驱动下载页面](https://www.nvidia.cn/drivers/lookup/) 选择匹配的驱动版本,例如: ```bash wget https://us.download.nvidia.com/XFree86/Linux-x86_64/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run ``` #### 5. **安装驱动** [^1][^2] ```bash # 赋予执行权限 chmod +x NVIDIA-Linux-x86_64-*.run # 执行安装(重要参数) sudo ./NVIDIA-Linux-x86_64-*.run \ --no-opengl-files \ # 不安装OpenGL文件 --no-cc-version-check # 跳过编译器版本检查 ``` > 安装过程中选择: > - `Yes` 安装32位兼容库 > - `No` 不安装DKMS模块 > - `Yes` 更新X配置 #### 6. **验证安装** ```bash # 查看驱动信息 nvidia-smi # 输出示例: +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2 | | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 NVIDIA GeForce ... Off | 00000000:01:00.0 Off | N/A | | N/A 45C P0 N/A / N/A | 0MiB / 8192MiB | 0% Default | +-------------------------------+----------------------+----------------------+ ``` #### 7. **恢复图形界面** ```bash sudo systemctl set-default graphical.target sudo reboot ``` #### 8. **常见问题解决** **问题1:安装失败提示 "Unable to find kernel source"** ```bash # 确保内核与开发包匹配 sudo yum reinstall kernel-devel-$(uname -r) ``` **问题2:登录循环或黑屏** ```bash # 编辑X11配置 sudo nano /etc/X11/xorg.conf # 在Section "Device"中添加: Option "PrimaryGPU" "yes" ``` **问题3:驱动版本不兼容** ```bash # 完全卸载旧驱动 sudo nvidia-uninstall sudo rm -rf /usr/lib/modules/*/kernel/drivers/video/nvidia* ``` > 提示:虚拟机环境通常不需要安装NVIDIA驱动,物理机安装时需关闭Secure Boot
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值