CUDA的分布式训练
torch._C._cuda_setDevice(device)
RuntimeError: cuda runtime error (101) : invalid device ordinal at /opt/conda/conda-bld/pytorch_1595629427478/work/torch/csrc/cuda/Module.cpp:59
解决办法:
在.sh脚本的时候,需要将环境中存在的node数(对于单机多卡来说,就是GPU的数量)设置匹配。也就是说,环境中有多少张卡,node数就应该等于多少。
python -m torch.distributed.launch --nproc_per_node=4 --use_env train.py --batch_size 4
推荐用法是nproc_per_node和local_world_size 设置和CUDA_VISIBLE_DEVICES的数量一致。参考链接:

本文介绍了在使用PyTorch进行CUDA分布式训练时可能遇到的报错及解决办法,包括设置环境变量nproc_per_node和local_world_size与GPU数量匹配,以及如何处理cuda runtime error (101)。当遇到无效设备序号或无法调用显卡的问题时,可能是由于驱动版本不匹配,可通过调整PyTorch版本来解决。
最低0.47元/天 解锁文章
2598





