Pytorch中DDP ：The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use）

原创

已于 2022-11-22 03:24:23 修改 · 4.4w 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#pytorch #DDP #显存 #多卡并行训练

于 2022-09-16 23:08:17 首次发布

本文介绍了Pytorch分布式数据并行(DDP)运行时出现的错误，即端口已被占用的问题，以及两种解决方案。一是手动释放显存和关闭相关进程，二是通过指定新的端口号避免冲突。此外，还提供了快速停止DDP的方法，包括使用nvidia-smi命令或通过Ctrl+C、Ctrl+Z中断程序。

一. Pytorch中DDP error

RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).

二. 解决方法

2.1 问题原因

由于中途关闭DDP运行，从而没有释放DDP的相关端口号，显存占用信息，当下次再次运行DDP时，使用的端口号是使用的DDP默认的端口号，也即是29500，因此造成冲突

2.2 方法1

手动释放显存，kill -9 pid 相关显存占用的进程，关闭所有这个服务器打开的终端，从而就能释放掉前一个DDP占用的显存和端口号

2.3 方法2

在命令行中在启动DDP命令中（在xx.py前）手动加上一句"_ _master_port=xxxxx"，如下图所示（注意需要释放前一个DDP占用的显存，可能会导致显存不足）：

python -m torch.distributed.launch

最低0.47元/天解锁文章

评论 3

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。