总结
本次配置版本信息如下:
- NVIDIA 显卡:两张
- CUDA:11.8
- cuDNN:8.6.0
- NCCL:2.21.5.1
确立版本
安装CUDA与CUDNN
-
通过nvidia-smi查看当前显卡驱动版本:
-
通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA 版本:
-
再通过https://developer.nvidia.com/cuda-toolkit-archive/下载该版本的 CUDA :
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudo sh cuda_11.8.0_520.61.05_linux.run --override
报的警告选择 continue :
根据提示选择安装选项,此处我使用的是lxd容器,之前已经安装过显卡驱动,所以此处选择的不安装,如果是物理机或者第一次配置环境,此处应勾选:
安装完成后提示:
-
根据上图提示需要配置环境变量:
vim ~/.bashrc
再文件最后加入以下语句(加入的具体内容根据上述输出进行修改):
export CUDA_HOME=/usr/local/cuda-11.8 export LD_LIBRARY_PATH=${CUDA_HOME}/lib64 export PATH=${CUDA_HOME}/bin:${PATH}
然后使其生效:
source ~/.bashrc
-
可以使用命令 nvcc -V 查看安装的版本信息:
-
进入https://developer.nvidia.cn/rdp/cudnn-archive下载对应 CUDA 的 cuDNN :
-
下载好解压:
tar xvf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz
-
进入解压后的目录运行以下命令:
sudo cp include/cudnn*.h /usr/local/cuda/include sudo cp lib/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
-
拷贝完成之后,可以使用以下命令查看CUDNN的版本信息:
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
表示版本信息为8.6.0。
安装paddle
- 查看文档https://www.paddlepaddle.org.cn/documentation/docs/zh/2.6/install/pip/linux-pip.html,使用对应命令安装 paddle:
python -m pip install paddlepaddle-gpu==2.6.2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
安装 NCCL
- 查看文档:https://developer.nvidia.com/nccl/nccl-legacy-downloads,找到对应的命令:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb sudo dpkg -i cuda-keyring_1.0-1_all.deb sudo apt-get update sudo apt install libnccl2=2.16.5-1+cuda11.8 libnccl-dev=2.16.5-1+cuda11.8
验证安装
import paddle
paddle.utils.run_check()