完美解决Nccl test fails on- misc/socket.cc:483 NCCL WARN socketStartConnect: Connect to xxx failed : Software caused connection abort
这个问题很容易就被Nccl版本等各种信息带偏,我一顿操作下来,又是check环境,又是重装环境,毫无作用,后面仔细一看,原来socket连接不上,按不得报nccl错嘛
方案
一直以为设置好IP和port就行,好家伙,还需要设置接口哇
-ip a / ipconfig / ip addr
三个命令 随便挑一个 查询ip
下图为从节点ip查询
lo 本地环回 一般不会选这个作为接口
IP是哪个 就选哪个
对于我来说 我就是
从节点 wlp0s20f3
随后设置环境变量
sudo gedit ~/.bashrc
在文档末尾加上
export NCCL_SOCKET_IFNAME=wlp0s20f3
最后更新一下
sudo source ~/.bashrc
设置成功的话,不出意外在分布训练时会出现
注意!!主节点同理设置,最好都设置一下,谁知道默认的是什么玩意
出现如下一般来说就是成功了