Pytorch分布式报错1.non-zero exit status,2.cuDNN error:CUDNN_STATUS_INTERNAL_,3.CUDA error:illegal memory

这篇博客主要介绍了Pytorch分布式训练时遇到的三个错误:1)non-zero exit status 1;2)cuDNN error: CUDNN_STATUS_INTERNAL_ERROR;3)CUDA error: illegal memory access。错误一的解决方案是在DistributedDataParallel中设置find_unused_parameters=True;错误二是由于torch版本与CUDA版本不匹配,需要更新或重建conda环境并匹配CUDA版本;错误三同样是torch和CUDA版本不兼容,需要进行相应版本调整。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.  returned non-zero exit status 1.

One epoch之后报错,信息如下:

RuntimeError: Expected to have finished reduction in the prior iteration before 
starting a new one. This error indicates that your module has parameters that were 
not used in producing loss. You can enable unused parameter detection by (1) 
passing the keyword argument `find_unused_parameters=True` to 
`torch.nn.parallel.DistributedDataParallel`; (2) making sure all `forward` function 
outputs participate in calculating loss. If you already have done the above two 
steps, then the distributed data parallel module wasn't able to locate the output 
tensors in the return value of your module's `forward` funct
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiangyong58

喝杯茶还能肝到天亮,共同进步

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值