先看看哪些卡空闲/可用,使用CUDA_VISIBLE_DEVICES屏蔽掉不可用的卡
# 1 2 4 7号卡可用
CUDA_VISIBLE_DEVICES="1,2,4,7" python -m torch.distributed.launch --nproc_per_node 4 main.py
#避免冲突 自定义端口
CUDA_VISIBLE_DEVICES="1,2,4,7" python -m torch.distributed.launch --nproc_per_node 4 --master_port YourPort main.py
本文介绍了如何查看CUDA设备的可用性,并通过设置CUDA_VISIBLE_DEVICES环境变量来屏蔽不可用GPU。同时,演示了如何避免冲突,自定义端口运行多进程分布式训练任务,确保在指定的GPU上执行Python的mtorch.distributed.launch脚本。
1337

被折叠的 条评论
为什么被折叠?



