升级 GPU 服务器 cuda 驱动版本指南

本文详细介绍了如何升级NVIDIA GPU驱动,包括下载对应版本驱动、停止相关应用、执行驱动升级、启动多卡持久化模型以及升级Fabric(针对特定GPU型号)。提供了具体命令行操作步骤,并强调了在每个步骤中的注意事项,确保驱动升级过程顺利进行。
部署运行你感兴趣的模型镜像

一,下载对应版本驱动

1,选择对应的驱动版本

下载驱动地址:https://www.nvidia.in/Download/index.aspx?lang=en

本文内容以 A30(NCCL)、A100(NV-Link)、A100(NV-Switch) 为例:
在这里插入图片描述

2,获取选择驱动的下载链接
1) 确认如下版本信息是否正确

在这里插入图片描述
若正确则点击下载

2) 复制下载链接

在这里插入图片描述

3,服务器中下载驱动
1)下载驱动

终端执行: wget 【复制的链接】

eg:

wget https://cn.download.nvidia.com/tesla/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run
2)赋文件执行权限

chmod +x 【驱动文件】

eg:

chmod +x NVIDIA-Linux-x86_64-515.65.01.run

二,停掉所有和显存占用有关系的应用、容器

1、停掉容器
# nvidia-smi --query-compute-apps=gpu_uuid,pid,used_memory --format=csv | grep '[0-9]' | sed 's/[[:space:]]//g' | sed 's/MiB//g'
# docker inspect -f '{{ .Name }}' $(ps -e -o pid,comm,cgroup | grep -v "/docker/" | grep <PID> | awk '{print $3}' | awk -F "[/.-]" '{print $5}') | sed 's/\///g'
docker ps | awk '{print $1}' | grep -v CONTAINER | xargs docker stop
2、查看 nvidia 占用应用
sudo lsof -n -w /dev/nvidia*

查看 PID 后,可使用 kill 命令结束该进程

3、确认是否有 nvidia 应用占用
ps -aux | grep nvidia
4、查看是否存在 k8s 应用占用
# 使用下面命令查看
systemctl status kubelet

# 若存在则执行下面命令
systemctl stop kubelet

三,执行驱动升级

./NVIDIA-Linux-x86_64-515.65.01.run 

注:

  • 所有选项选择 YES
  • 可另起一个终端查看nvidia update 升级日志 : tail -f /var/log/nvidia-installer.log

四, 启动多卡持久化模型

nvidia-smi -pm 1

五,升级 fabric (Nccl 并不需要此步骤;NV-Link、NV-Switch执行)

1、 查看当前 fabric 名称
rpm -qa | grep fabric
2、卸载 fabric
1) 根据查询到的 fabric 名称执行卸载命令

eg:

yum remove nvidia-fabricmanager-465-465.19.01-1.x86_64
2) 查看是否卸载成功

执行以下命令,若无返回值则表示成功

 rpm -qa | grep fabric
3、 修改 gpg 检查参数
cd /etc/yum.repos.d/ && vim cuda-rhel7.repo

修改 gpgcheck 如下:

# gpgcheck=1
gpgcheck=0
4、 yum 升级
yum update -y 
5、 安装新版本的 fabric
yum install -y cuda-drivers-fabricmanager nvidia-fabric-manager
6、查看是否成功安装
rpm -qa | grep fabric
7、启动 fabric
nv-fabricmanager
8、查看是否成功启动
ps -ef | grep fabric

六,重启并验证

1、重启
reboot
2、验证
1) 查看 GPU 显卡状态是否正常
nvidia-smi
2) 使用单机多卡跑模型,查看是否可以正常训练

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

### 升级 NVIDIA 显卡驱动程序的流程 在 CentOS 系统上升级 NVIDIA 显卡驱动程序涉及多个步骤,包括确认当前驱动状态、卸载旧版驱动以及安装新版驱动。以下是详细的说明: #### 1. 检查现有硬件和驱动情况 通过命令 `lspci | grep -i nvidia` 可以验证系统是否识别到 NVIDIA 显卡及其型号[^1]。 接着可以使用以下命令检查已安装的 NVIDIA 驱动版本: ```bash nvidia-smi ``` 如果未安装任何驱动,则会提示无法找到该命令。 --- #### 2. 停用 Nouveau 开源驱动 为了防止开源驱动与专有 NVIDIA 驱动冲突,需禁用 Nouveau 驱动: - 查看是否有启用的 Nouveau 模块: ```bash lsmod | grep nouveau ``` - 如果存在模块加载记录,则编辑配置文件 `/etc/modprobe.d/blacklist-nouveau.conf` 并添加以下内容: ```plaintext blacklist nouveau options nouveau modeset=0 ``` - 更新 initramfs 图像以应用更改: ```bash mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak dracut /boot/initramfs-$(uname -r).img $(uname -r) ``` 重启计算机使设置生效: ```bash reboot ``` --- #### 3. 安装必要的开发工具包 确保系统具备编译所需的软件包: ```bash yum -y groupinstall "Development Tools" yum -y install kernel-devel dkms gcc pciutils ``` 这些工具对于构建和安装 NVIDIA 驱动至关重要[^3]。 --- #### 4. 下载最新版 NVIDIA 驱动 访问官方 NVIDIA Linux 驱动页面获取最新的驱动链接。例如,假设目标版本为 510.47.03,则可通过以下方式下载: ```bash wget https://us.download.nvidia.com/XFree86/Linux-x86_64/510.47.03/NVIDIA-Linux-x86_64-510.47.03.run chmod +x NVIDIA-Linux-x86_64-510.47.03.run ``` 注意替换 URL 和文件名以匹配实际需求[^2]。 --- #### 5. 切换至文本模式并执行安装脚本 为了避免图形界面干扰驱动安装过程,切换到多用户模式(无 GUI): ```bash systemctl set-default multi-user.target reboot ``` 登录后运行安装器之前停止 X Server 或其他可能占用 GPU 的服务: ```bash service gdm stop ./NVIDIA-Linux-x86_64-510.47.03.run --silent ``` 选项 `--silent` 表示静默安装;可根据个人偏好调整参数。 完成之后恢复默认启动模式: ```bash systemctl set-default graphical.target reboot ``` --- #### 6. 验证新驱动是否正常工作 最后一步是测试更新后的驱动功能是否完好: ```bash nvidia-settings nvidia-smi ``` 上述两个命令分别用于打开 NVIDIA 控制面板和查询设备性能统计信息。 --- ### 注意事项 - 若遇到兼容性问题,请尝试更换不同分支系列的稳定版驱动。 - 对于生产环境建议提前备份重要数据以防万一。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值