官方NCCL安装说明:https://docs.nvidia.com/deeplearning/sdk/nccl-install-guide/index.html
1、下载NCCL
https://developer.nvidia.com/nccl
2、安装存储库
对于本地存储库
sudo dpkg -i nccl-repo-<version>.deb
对于网络存储库
sudo dpkg -i nvidia-machine-learning-repo-<version>.deb
具体方式跟据下载的NCCL存储库类型选择,这里下的本地版。
所以是:
sudo dpkg -i nccl-repo-ubuntu1604-2.2.13-ga-cuda9.0_1-1_amd64.deb
3、更新APT数据库
sudo apt update
4、使用APT安装libnccl2软件包。 此外,如果需要使用NCCL编译应用程序,还可以安装libnccl-dev软件包
注意:如果使用的是网络存储库,则以下命令会将CUDA升级到最新版本。
sudo apt install libnccl2 libnccl-dev
如果希望保留较旧版本的CUDA,请指定特定版本,例如:
sudo apt-get install libnccl2=2.2.13-1+cuda9.0 libnccl-dev=2.2.13-1+cuda9.0
没报错,安装成功