-
下载显卡驱动
1.1查看gpu型号
lspci | grep -i nvidia
1.2 下载驱动
https://www.nvidia.co.uk/Download/index.aspx?lang=en-cn
1.3. 修改权限
chmod 777 NVIDIA-Linux-x86_64-440.100.run -
如果没有gcc需要安装对应系统版本的kernel-headers
sudo yum install kernel-devel
或者
3.1 查看系统版本
uname -r
3.2下载rtmp包
http://rpm.pbone.net/
3.3 安装
sudo yum install kernel-devel-3.10.0-1062.el7.x86_64.rpm -
安装显卡驱动
4.1 下载地址
https://www.nvidia.cn/Download/index.aspx?lang=cn
4.2 安装
sudo sh cuda_9.0.176_384.81_linux-run.run -
安装cuda-toolkit
5.1 进入网站
https://developer.nvidia.com/zh-cn/cuda-toolkit
https://developer.nvidia.com/cuda-toolkit-archive
5.2 选择: 立即下载->linux->…
5.3 按照提示执行命令
wget https://developer.download.nvidia.com/compute/cuda/11.5.1/local_installers/cuda-repo-rhel7-11-5-local-11.5.1_495.29.05-1.x86_64.rpm
rpm -i cuda-repo-rhel7-11-5-local-11.5.1_495.29.05-1.x86_64.rpm
yum clean all
yum -y install nvidia-driver-latest-dkms cuda
yum -y install cuda-drivers -
禁用nouveau
vim /etc/modprobe.d/blacklist-nouveau.conf
写入
blacklist nouveau
options nouveau modeset=0
保存
检查
lsmod | grep nouveau
- 安装cudnn
https://developer.nvidia.com/rdp/cudnn-archive
7.1 解压
tar xzvf cudnn-8.0-linux-x64-v5.1.tgz
7.2 把cudnn解压后的cuda文件夹中的lib64文件夹copy到/usr/local/cuda/中
cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
9.3 把cudnn解压后的cuda文件夹中的include/cudnn.h文件copy到/usr/local/cuda/include/中
cp cuda/include/cudnn.h /usr/local/cuda/include
测试gpu安装是否成功
进入python交互环境
import tensorflow as tf
tf.test.is_gpu_device_name()
tf.test.is_gpu_available()
查看gpu型号
lspci | grep -i vga
返回4位16进制数字
http://pci-ids.ucw.cz/read/PC/10de/24b0
输入查询
查看gpu使用概况
nvidia-smi
查看gpu使用详情
查看cpu使用详情
mpstat -P ALL 2
缺少库文件
可能是由于tf版本和cuda版本不匹配
pip install -U tensorflow_gpu==???
卸载cuda
su root
yum remove kmod-nvidia-*
yum remove “nvidia”
yum remove “cublas” “cuda*”
sudo reboot
sudo lsof /dev/nvidia*
没有git
conda install pygit