torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141——YOLOv8双卡训练报错的解决方法

最新推荐文章于 2025-04-19 19:01:23 发布

光芒再现dev

最新推荐文章于 2025-04-19 19:01:23 发布

阅读量4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： yolo 计算机视觉 pytorch 文章标签：深度学习机器学习人工智能

本文链接：https://blog.youkuaiyun.com/blink182007/article/details/134243079

yolo 同时被 3 个专栏收录

6 篇文章

订阅专栏

pytorch

5 篇文章

订阅专栏

计算机视觉

4 篇文章

订阅专栏

文章讨论了在训练YOLOv8模型时，双GPU部署遇到的torch.distributed异常，涉及进程管理、环境配置和重启策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ultralytics开源的YOLOv8训练模型的时候——使用如下命令，双GPU部署训练

yolo train data=D:/YOLO_V8/ultralytics-main/ultralytics-main/ultralytics/cfg/datasets/mydata.yaml model=yolov8n.pt epochs=650 imgsz=640 batch=256 workers=0 patience=200 device=0,1

抛出异常

torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -7) local_rank: 0 (pid: 340) of binary: /root/miniconda3/envs/llama/bin/python

torch.distributed.elastic.multiprocessing.errors.ChildFailedError

subprocess.CalledProcessError: Command '['D:\\Anaconda\\envs\\YOLO8\\python.exe', '-m', 'torch.distributed.run', '--nproc_per_node', '2', '--master_port', '58127', 'C:\\Users\\amax\\AppData\\Roaming\\Ultralytics\\DDP\\_temp_8gd8 22v32514268826352.py']' returned non-zero exit status 1.

而使用SingleGPU则不会抛出异常

 yolo train data=D:/YOLO_V8/ultralytics-main/ultralytics-main/ultralytics/cfg/datasets/mydata.yaml model=yolov8n.pt epochs=650 imgsz=640 batch=256 workers=0 patience=200 device=0

这是由于上一次双卡训练直接在pycharm的terminal里面直接Ctrl+C按下去，然后终止了训练，这样可能导致了进程没有完全杀死，没有释放该进程。需要重启电脑。

还有一种解决方法就是，去跑另外的一份python训练AI模型的程序，同样使用同一款pycharm或者vscode训练，然后关闭terminal杀死另一个不相干的训练进程。然后再次打开本训练，有概率就可以继续双卡Multi GPU Training了

如若重启电脑也不行的话，就考虑环境的问题（需要匹配cuda与torch的版本一一对应上才可以）这个目前没有更好的解决方案，后续再发生这样的报错，找到了更好的解决方案，会再试一下