最近需要重装一下nVidia和cuda,因此在此记录一下。
1. 前提准备
前提机器上面有支持CUDA的Nvidia GPU,查看支持CUDA的GPU列表:
https://developer.nvidia.com/cuda-gpus
lspci | grep -i nvidia
重装服务器使用GTX750
验证系统是否是受支持的Linux版本
uname -m && cat /etc/redhat-release
到这里查看受支持的Linux版本:
Installation Guide Linux :: CUDA Toolkit Documentation
验证系统是否有GCC编译环境
gcc -v
没有的话需要先安装GCC,Centos7的最小化安装一般勾选上开发软件都会自动安装GCC
- 验证系统是否安装了正确的内核头文件和开发包
sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
2.开始安装
禁用nouveau
nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。 这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau
查看系统是否正在使用nouveau
lsmod | grep nouveau
如果有显示内容,则进行以下的步骤: Centos7禁用方法
#新建一个配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
#写入以下内容
blacklist nouveau
options nouveau modeset=0
#保存并退出
:wq
#备份当前的镜像
sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
#建立新的镜像
sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)
#重启
sudo reboot
#最后输入上面的命令验证
lsmod | grep nouveau
安装驱动
GPU 云服务器正常工作需安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有两个层次的软件包需要安装:
- 驱动 GPU 工作的硬件驱动程序。
- 上层应用程序所需要的库。
若把 NVIDIA GPU 用作通用计算,需要安装 GeForce Driver + CUDA。
安装驱动后缀分为.run和.rpm
1.打开 NVIDIA 驱动下载链接 Advanced Driver Search | NVIDIA 。
2.选择支持 RPM 或者RUN的操作系统,并获取该包的下载链接。例如:选择 CentOS 7.x, 得到下载链接:Download NVIDIA, GeForce, Quadro, and Tesla Drivers
按照提示下载并安装驱动
3.使用rpm命令安装 rpm 包。
rpm -i nvidia-diag-driver-local-repo-XXX.rpm
4.使用yum命令清除缓存。
yum clean all
5.使用yum命令安装驱动。
yum install cuda-drivers
6.重启机器
reboot
7.运行nvidia-smi能输出正确信息代表驱动安装成功。
8.使用sh命令安装run包。
# 赋权限
chmod -R 777 NVIDIA-Linux-x86_64-470.94.run
# 运行命令
sudo sh NVIDIA-Linux-x86_64-470.94.run
注:如果使用GUI安装包,可能会出现如下错误
You appear to be running an X server; please exit X before installing.
因此,最好使用ssh连接服务器或者虚拟机,而不是使用GUI的图形化界面进行操作。
关闭X server的方法如下:
Liunx 环境下关闭 X 服务_桐原因的博客-优快云博客
================后面更新===============
好像找到不用关闭GUI图形界面的方法
sudo sh NVIDIA-Linux-x86_64-440.44.run -no-x-check -no-nouveau-check -no-opengl-files
链接:双系统下 Ubuntu安装NVIDIA显卡驱动及错误解决办法 - 知乎
3.安装 CUDA
CUDA (Compute Unified Device Architecture) 是显卡厂商 NVIDIA 推出的运算平台。 CUDA™ 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 开发人员现在可以使用 C 语言, C++ , FORTRAN 来为 CUDA™ 架构编写程序,所编写出的程序可以在支持 CUDA™ 的处理器上以超高性能运行。
GPU 云服务器采用 NVIDIA 显卡,需要安装 CUDA 开发运行环境。
1.CUDA驱动下载 https://developer.nvidia.com/cuda-75-downloads-archive 。
2.选择操作系统和安装包。以 CentOS 7.9 64 位为例,可按如下方式进行选择:
下载rpm安装包
3.在 CUDA 安装包所在目录下运行如下命令:
sudo rpm -i cuda-repo-rhel7-9-2-local-9.2.148-1.x86_64.rpm
sudo yum clean all
sudo yum install cuda
4.在/usr/local/cuda/samples/1_Utilities/deviceQuery目录下,执行make命令,可以编译出deviceQuery程序。
5.执行deviceQuery正常显示设备信息,此刻认为CUDA安装正确。
=================更新===============
如果使用rpm文件报错,则考虑使用run文件进行安装。
下载地址:
CUDA Toolkit Archive | NVIDIA Developer
我安装是是10.1版本,可以离线安装。10.2的版本可以选择在线下载和离线下载。
下载run文件进行安装
sh cuda_*.run
建议最好不要使用GUI图形化界面操作,容易报错。
安装 CUDNN
参考: