【PyTorch】torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

最新推荐文章于 2025-09-26 16:36:12 发布

原创最新推荐文章于 2025-09-26 16:36:12 发布 · 4.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch

报错收集专栏收录该内容

8 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

报错说明

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

报错如图所示

在这里插入图片描述

报错分析

该报错是 torch 和 CUDA 版本不兼容导致。（一般N卡自带的CUDA版本与最新的torch版本相差较大）

解决方案

1.查看自己的CUDA版本

# 查看自己的显卡驱动和CUDA版本
nvidia-smi

2.查看自己的torch版本

python -c "import torch; print(torch.__version__)"	# 查看pytorch版本
python -c "import torch; print(torch.version.cuda)" # 查看pytorch使用的CUDA版本

3.根据自己需要使用的项目的建议重新配置torch或者CUDA，使版本兼容。

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AustinCyy

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch报错 ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank:....

科研学习笔记！

06-26

1万+

pytorch报错 ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank:....

训练DiT报错ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0

计算机视觉

11-27

1万+

运行Dit时，torchrun --nnodes=1 --nproc_per_node=8 train.py --model DiT-XL/2 --data-path /home/pansiyuan/jupyter/qianyu/data。此时是多卡计算看不到报错信息。

1 条评论您还未登录，请先登录后发表或查看评论

2 条评论

RoseOnlyForAngle 2025.04.27
重新安装了cuda和torch，还是报相同的错误
- 杨昭23333333回复RoseOnlyForAngle 2025.05.22
  朋友请问你解决了吗

【待解决】报错：gpt模型训练的时候，有报错的torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

测试人的成长日志

09-14

2923

pytorch多GPU并行的问题_torch.distributed.elastic.multiprocessing.errors.c-优快云博客

NameError: name ‘CUDA_RUNTIME_LIB‘ is not defined

gs80140的专栏

06-08

2212

ls libcudart.so.11.0, 提醒不存在, 不要问我为什么叫 libcudart.so.11.0, 这个是我本机其它环境有的这个版本, 而且其它环境可用的。找到此文件,复制到 $CONDA_PREFIX/lib 目录。echo $CONDA_PREFIX 可以看到目录位置在。# 升级到0.38.0 此处报错, 注释掉。这个错误原因是查找cuda安装目录报的错。如果可以直接找到,就不会报这个错了。

deepspeed安装问题

热门推荐

dream_home8407的博客

04-12

5万+

ChatGLM2-6B 模型介绍及训练实战

成功解决“ grad_input, grad_grid = op(grad_output, input, grid, 0, 0, False)“

qq_43826289的博客

07-06

1391

成功解决TypeError: 'tuple' object is not callable

报错：torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

2301_77554343的博客

03-26

1万+

torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 这个主要是torch的gpu版本和cuda不适配。但是我发现下这个也不行，就降低了一个小版本，但还是cu118 就OK了。附个地址，可以去寻找对应的gpu版本torch。一定要cu版本和nvcc 的版本相对应！我的nvcc -V是11.8。

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

lwj0824的博客

09-13

3万+

并行训练error

ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError: yennegpao

01-19

`torch.distributed.elastic.multiprocessing.errors.ChildFailedError` 表明在分布式训练过程中，至少有一个子进程未能成功完成其执行。此错误可能由多种因素引起： - **版本不兼容**：当 PyTorch 和 CUDA 的版本...

failures=result.failures, torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

06-23

在使用 PyTorch 进行分布式训练时，`torch.distributed.elastic.multiprocessing.errors.ChildFailedError` 是一个常见的错误。该错误通常表示子进程在执行过程中发生了异常或失败。以下是一些可能的原因和解决方案...

raise ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

09-01

当你尝试启动一个子进程，例如在执行模型的分布式训练时，如果这个子进程遇到无法恢复的错误，比如程序崩溃或者资源不足等情况，`torch.distributed.elastic.multiprocessing.errors.ChildFailedError`就会被抛出，...

【异常错误】torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

Drug discovery

07-14

1万+

昨天运行的时候总是出现这个错误意思就是子线程有错误，但是却不报错，debug半天后是“”这一行出错了，但是我把这行代码单独放在一个新建的项目的py文件，然后运行没有错误，真是服了，改天了一天也没弄好。

yolov7 多卡训练显示torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

woshi212534的博客

11-02

2126

大概率是因为pytorch版本的问题，在2.0版本中local_rank变为了local-rank。1.首先把数据集里的label.cache清掉。

torch.distributed.elastic.multiprocessing.errors.ChildFailedError

yyz2080的博客

01-17

4256

修改finetune_qlora_ds.sh，设置GPUS_PER_NODE与可使用GPU数相同。

raise ChildFailedError(torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

qq_45175818的博客

08-03

1137

【代码】 raise ChildFailedError(torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

多卡解决报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError的问题

QHCV的博客

06-19

2134

PyTorch多卡运行时出现SIGSEGV错误（exitcode: -11）的解决办法错误通常由CUDA与PyTorch版本不匹配导致。解决步骤：检查当前CUDA版本： import torch print(torch.cuda.is_available()) print(torch.version.cuda) # 输出CUDA版本访问PyTorch历史版本页面（https://pytorch.org/get-started/previous-versions/），根据CUDA版本选择对应安装命令。

yolo torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

02-22

### 解决YOLO训练时出现的 `ChildFailedError` 错误当在多GPU环境中使用PyTorch分布式弹性库进行YOLO模型训练时，可能会遇到 `torch.distributed.elastic.multiprocessing.errors.ChildFailedError` 这种错误。此错误通常表明子进程未能成功启动或执行期间发生异常。 #### 清除缓存文件清除数据集中可能存在的损坏或不兼容的缓存文件有助于减少潜在冲突。对于YOLOv8而言，移除标签缓存可以是一个有效的初步措施[^3]： ```bash rm -f path_to_dataset/labels.cache ``` #### 修改参数配置调整脚本内的参数设置也是解决问题的关键之一。具体来说，在调用训练脚本时应确保传递给程序的命令行参数正确无误。特别是关于设备分配以及同步批量归一化选项(`--sync-bn`)等重要参数需特别注意其准确性[^2]: ```python if __name__ == '__main__': parser.add_argument('--local-rank', type=int, default=-1, help='DDP parameter') ``` #### 使用合适的启动方式采用官方推荐的方式启动多节点或多卡任务能够提高稳定性并降低出错几率。通过Python模块 `-m torch.distributed.launch` 来发起带有指定数量处理器的任务实例，并设定主端口用于协调各工作单元之间的通信: ```bash python -m torch.distributed.launch \ --nproc_per_node=2 \ # 假设只有两块显卡可用 --master_port=9527 \ train.py \ --workers=0 \ --device=0,1 \ --sync-bn \ --batch-size=256 \ --data=D:/YOLO_V8/ultralytics-main/ultralytics/cfg/datasets/mydata.yaml \ --imgsz=640 \ --epochs=650 \ --model=yolov8n.pt \ --patience=200 ``` 以上方法综合考虑了环境清理、代码逻辑修正及运行模式优化等方面因素来应对该类问题的发生。