在进行分布式训练的时候遇到这个错,不知道怎么解决,先记录一下
Traceback (most recent call last):
File "my_train.py", line 194, in <module>
main(parser.parse_args())
File "my_train.py", line 75, in main
backbone = torch.nn.parallel.DistributedDataParallel(
File "/root/.virtualenvs/torchenv/lib/python3.8/site-packages/torch/nn/parallel/distributed.py", line

在尝试利用PyTorch进行分布式训练的过程中,遇到了未知错误。博主详细记录了这一问题,以便后续分析和寻找解决方案。
最低0.47元/天 解锁文章
1万+





