Deepspeed Nccl test fails on- misc/socket.cc:483 NCCL WARN socketStartConnect: Connect to xxx failed

完美解决Nccl test fails on- misc/socket.cc:483 NCCL WARN socketStartConnect: Connect to xxx failed : Software caused connection abort

这个问题很容易就被Nccl版本等各种信息带偏,我一顿操作下来,又是check环境,又是重装环境,毫无作用,后面仔细一看,原来socket连接不上,按不得报nccl错嘛

方案

一直以为设置好IP和port就行,好家伙,还需要设置接口哇

-ip a / ipconfig / ip addr
三个命令 随便挑一个 查询ip
下图为从节点ip查询


lo 本地环回 一般不会选这个作为接口
IP是哪个 就选哪个
对于我来说 我就是

从节点  wlp0s20f3

随后设置环境变量

 sudo gedit ~/.bashrc

在文档末尾加上

export NCCL_SOCKET_IFNAME=wlp0s20f3

最后更新一下

 sudo source ~/.bashrc

设置成功的话,不出意外在分布训练时会出现

注意!!主节点同理设置,最好都设置一下,谁知道默认的是什么玩意

在这里插入图片描述出现如下一般来说就是成功了
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值