linux nvidia 11.8 安装记录

本文档详细介绍了在CentOS 7上安装CUDA 11.8的步骤,并提供了安装完成后遇到的`nvidia-smi`错误的解决方法,包括重启和不重启两种方案。在不重启的情况下,需要通过`lsof`找出占用GPU的进程并杀掉,然后移除旧的内核模块,最后启用`nvidia-persistenced`服务来保持GPU状态。
部署运行你感兴趣的模型镜像

1. 安装参考官方链接

https://developer.nvidia.com/cuda-downloads
选择自己对应的操作系统即可

1.1 从网页中保留的 centos7 cuda 11.8 安装命令
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda

2. 安装完成之后

执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)

2.1 重启即可
2.2 不重启方案 (服务端不能轻易重启情况)
2.2.1 杀死使用GPU相关进程, 看到pid之后杀死
sudo yum install -y lsof
sudo lsof -n -w  /dev/nvidia*
2.2.2 删除已有mod
sudo rmmod nvidia

报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod

sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm

再运行命令

sudo rmmod nvidia
sudo nvidia-smi
2.2.3

此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程

nvidia-persistenced --persistence-mode

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

布鲁格若门

对你有用的话真是太好了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值