[Notes] Pytorch中DDP(DistributedDataParallel)指定显卡/GPU运行的方式

最新推荐文章于 2024-12-24 21:42:58 发布

原创最新推荐文章于 2024-12-24 21:42:58 发布 · 4.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #深度学习

Note 专栏收录该内容

59 篇文章

订阅专栏

本文介绍了如何查看CUDA设备的可用性，并通过设置CUDA_VISIBLE_DEVICES环境变量来屏蔽不可用GPU。同时，演示了如何避免冲突，自定义端口运行多进程分布式训练任务，确保在指定的GPU上执行Python的mtorch.distributed.launch脚本。

部署运行你感兴趣的模型镜像

先看看哪些卡空闲/可用,使用CUDA_VISIBLE_DEVICES屏蔽掉不可用的卡

# 1 2 4 7号卡可用
CUDA_VISIBLE_DEVICES="1,2,4,7" python -m torch.distributed.launch --nproc_per_node 4 main.py

#避免冲突 自定义端口
CUDA_VISIBLE_DEVICES="1,2,4,7" python -m torch.distributed.launch --nproc_per_node 4 --master_port YourPort main.py