【DDP踩坑记录】在0卡上出现多个进程

最新推荐文章于 2025-11-29 23:33:06 发布

原创最新推荐文章于 2025-11-29 23:33:06 发布 · 864 阅读

CC 4.0 BY-SA版权

文章标签：

博客围绕DDP训练展开，指出使用DDP训练时0卡常出现多个进程，导致显存占用不均、计算效率低的问题。分析了多个进程或显存占用不均匀的可能原因，如使用tensor.cuda()使新数据默认在0卡初始化、torch.load参数默认加载到0卡等。

部署运行你感兴趣的模型镜像

问题描述

在使用DDP训练时，发现0卡(或默认的第一张卡)上总是出现多个进程，这样就大大耽误我的计算效率！因为第一张卡爆了整个训练过程都要停下来！

//将数据放到cpu上
checkpoint = torch.load("checkpoint.pth",map_location=torch.device('cpu'))

②

//将数据放到当前进程所在的卡上；
checkpoint = torch.load("checkpoint.pth",map_location=f"cuda:{local_rank}")

！！！实例化 model 时，如果你的模型在初始化时，其实也实例化了其他部件(将模型中的module作为一个可学习模型)，一定要注意其实例化要加载到当前的gpu上！！** (我找了好久，原来在模型里面)** ；

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理