一、英伟达环境安装主要流程
1、下载安装对应系统版本nVidia驱动程序安装验证
2、CUDA开发套件安装验证
3、深度学习框架安装验证MiniConda3+PyTorch
4、容器化CUDA环境安装验证
5、cuDNN深度学习优化驱动安装+CNN训练验证
6、制作天翼云主机私有镜像
7、分享镜像给其他用户,实现天翼云A10显卡英伟达驱动环境共享
二、详细安装步骤
一)下载安装对应系统版本nVidia驱动程序安装验证

dpkg -i nvidia-driver-local-repo-ubuntu2004-535.129.03_1.0-1_amd64.deb
apt-get install nvidia-driver-535
测试显卡,检查显卡是否正确安装
nvidia-smi

这个命令会显示 NVIDIA A10 显卡的状态和驱动程序版本,如图所示当前的版本是535.129.03,cuda版本为12.2,GPU型号为nvidia A10,显存有24G
2) CUDA开发套件安装验证
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda-repo-ubuntu2004-12-2-local_12.2.0-535.54.03-1_amd64.deb
dpkg -i cuda-repo-ubuntu2004-12-2-local_12.2.0-535.54.03-1_amd64.deb
cp /var/cuda-repo-ubuntu2004-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/
apt-get update
apt-get -y install cuda
设置环境变量
在 .bashrc 文件中设置环境变量:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
sou

本文详细介绍了如何在天翼云环境中安装NVIDIAA10显卡的驱动程序、CUDA开发套件、PyTorch框架,以及容器化和cuDNN优化,最后涉及制作私有镜像并分享给其他用户。作者强调了天翼云在智算服务方面的挑战与改进需求。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



