1. 安装参考官方链接
https://developer.nvidia.com/cuda-downloads
选择自己对应的操作系统即可
1.1 从网页中保留的 centos7 cuda 11.8 安装命令
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda
2. 安装完成之后
执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)
2.1 重启即可
2.2 不重启方案 (服务端不能轻易重启情况)
2.2.1 杀死使用GPU相关进程, 看到pid之后杀死
sudo yum install -y lsof
sudo lsof -n -w /dev/nvidia*
2.2.2 删除已有mod
sudo rmmod nvidia
报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod
sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm
再运行命令
sudo rmmod nvidia
sudo nvidia-smi
2.2.3
此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程
nvidia-persistenced --persistence-mode