声明:这是我在大学毕业后进入第二家互联网公司学习的内容
背景
领导有需求让在AWS上买一台GPU的服务器,进行安装部署3D建模项目的集成开发环境
安装NVIDIA显卡驱动和CUDA
我购买了一台g3s.xlarge型号的ec2,选择centos7 配置好网络、磁盘、安全组和标签就准备开机安装了
查看显卡型号
[root@loaclhost ~]# yum install pciutils -y
[root@loaclhost ~]# lspci | grep -i NVIDIA
00:1e.0 VGA compatible controller: NVIDIA Corporation GM204GL [Tesla M60] (rev a1)
Google后发现
NVIDIA® Tesla® GPU是适用于服务器的 TESLA 数据中心的 GPU
它可以更快速地处理要求最严格的高性能计算 (HPC) 和超大规模数据中心工作负载。
在Linux实例上安装NVIDIA GRID驱动程序
准备
安装NVIDIA GRID驱动程序的依赖以及AWS CLI
yum update -y
yum install -y lrzsz vim wget ntpdate yum-utils zip unzip tree gcc gcc-c++ epel-release
curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
reboot
配置
配置AWS并确保IAM用户必须具有AmazonS3ReadOnlyAccess 策略授予的权限。
aws configure
为您当前正在运行的内核版本安装gcc编译器和内核头文件包。
yum install -y gcc kernel-devel-$(uname -r)
禁用nouveauNVIDIA图形卡的开源驱动程序。
添加nouveau到 /etc/modprobe.d/blacklist.conf黑名单文件。
cat << EOF | sudo tee --append /etc/modprobe.d/blacklist.conf
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv
EOF
编辑/etc/default/grub文件并添加以下行:
GRUB_CMDLINE_LINUX="rdblacklist=nouveau"
重建Grub配置
grub2-mkconfig -o /boot/grub2/grub.cfg
部署
下载GRID驱动程序安装实用程序
aws s3 cp --recursive s3://ec2-linux-nvidia-drivers/latest/ .
chmod +x NVIDIA-Linux-x86_64*.run
sudo /bin/sh ./NVIDIA-Linux-x86_64*.run
reboot
出现提示时,接受许可协议并根据需要指定安装选项
安装过程中一些选项
- The distribution-provided pre-install script failed! Are