1. 安装参考官方链接
https://developer.nvidia.com/cuda-downloads
选择自己对应的操作系统即可
1.1 从网页中保留的 centos7 cuda 11.8 安装命令
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda
2. 安装完成之后
执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)
2.1 重启即可
2.2 不重启方案 (服务端不能轻易重启情况)
2.2.1 杀死使用GPU相关进程, 看到pid之后杀死
sudo yum install -y lsof
sudo lsof -n -w /dev/nvidia*
2.2.2 删除已有mod
sudo rmmod nvidia
报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod
sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm
再运行命令
sudo rmmod nvidia
sudo nvidia-smi
2.2.3
此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程
nvidia-persistenced --persistence-mode
本文档详细介绍了在CentOS 7上安装CUDA 11.8的步骤,并提供了安装完成后遇到的`nvidia-smi`错误的解决方法,包括重启和不重启两种方案。在不重启的情况下,需要通过`lsof`找出占用GPU的进程并杀掉,然后移除旧的内核模块,最后启用`nvidia-persistenced`服务来保持GPU状态。
433

被折叠的 条评论
为什么被折叠?



