此处eth0为每台机器的网卡名字,使用ifconfig查看,要是出现多个网卡名字,找到那个有IP地址
#1
ifconfig
#2在分布式训练代码前面增加一条语句
NCCL_SOCKET_IFNAME=ens6666 python xxxx.py
举例
root@n-218:/data/chenmf/Qwen# ifconfig
........
ens6666: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.***.***.*** netmask 255.255.255.0 broadcast 192.***.***.***
inet6 ****** prefixlen 64 scopeid 0x20<link>
.........