DDP额外进程显存占用

最新推荐文章于 2025-05-05 20:26:10 发布

原创最新推荐文章于 2025-05-05 20:26:10 发布 · 436 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #人工智能

使用DDP做并行训练时，0号卡常出现额外进程显存占用问题，常见是读取预训练模型时进程0反复读取，可将预训练权重读至CPU或设置map_location解决。若此方法无效，可尝试将find_unused_parameters设为False。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DDP额外进程显存占用

在我们使用DDP做并行训练时，时常会碰到0号卡有额外的进程显存占用，常规的问题是在读取预训练模型时在进程0反复读取，这种问题的解决方案可以通过将预训练权重读取至CPU或者在读取权重时设置map_location，例如：

torch.jit.load('xxx.pt', map_location=torch.device(f'cuda:{rank}'))

这里的rank就是你的GPU号。
但是有时候这种方式可能并不能解决问题，此时可以尝试将find_unused_parameters设置为False，即

model_train = torch.nn.parallel.DistributedDataParallel(model_train, device_ids=[local_rank], find_unused_parameters=False)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

出门左转观音庙

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

pytorch分布式数据并行DDP

11-04

540

该代码展示了如何通过 PyTorch 的分布式框架在多个 GPU 上并行训练模型。它利用进行梯度同步，通过进行数据分割，mp.spawn创建并管理多进程。

分布式训练 - 多机多卡 (DDP)

love1005lin的博客

05-06

1万+

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。 ----1.分布式训练的理论基础 ----2.GPU训练 ----3.单机多卡的使用 ----4.多机多卡的使用在前边的文章中已经提到了怎样进行单机单卡和单机多卡进行分布式训练，那可能有小伙伴会有疑问能不能进行多

1 条评论您还未登录，请先登录后发表或查看评论

Pytorch使用DDP加载预训练权重时出现占用显存的多余进程

不屈不挠的拉普

09-16

2441

感谢知乎作者 https://www.zhihu.com/question/67209417/answer/866488638 在使用DDP进行单机多卡分布式训练时，出现了在加载预训练权重时显存不够的现象，但是相同的代码单机单卡运行并不会出现问题，后来发现是在多卡训练时，额外出现了3个进程同时占用了0卡的部分显存导致的，而这3个进程正是另外3张卡load进来的数据，默认这些数据被放在了0卡上。解决的方法是把load进来的数据放在cpu（也就是内存）里。 # 原来代码，load进的数据放在gpu里 # pre

【DDP踩坑记录】在0卡上出现多个进程

Ll7_ll的博客

09-27

787

pytorch ddp 踩坑记录

解决ddp多卡训练GPU:0显存占用比其他卡大的问题

weixin_56759664的博客

07-25

1218

2.将下面代码放在训练代码前，确保在进行分布式训练时，每个进程在初始化时都设置了正确的CUDA设备，并清除了CUDA缓存。

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

cax1165

07-19

7758

Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题，此问题可能导致GOU0在训练过程中爆显存。

使用DistributedDataParallel(DDP)时遇到额外进程导致GPU0显存不均衡的问题

weixin_43333043的博客

05-22

1466

可以看出，载入模型时，先被载入到cpu然后移动到对应设备，这里对应设备指的是GPU0，而通过指定参数map_location，可以使用对应设备进行载入。，查看显存占用，发现GPU0占用相较于其他GPU更高，并且每一个进程都在GPU上有占用，当显存较为紧张时，可能导致爆显存。然而，通过解决方法1，并未能解决我的问题。通过google，最终找到了解决该问题的方式。pytorch在load模型时，通过查看pytorch官方文档可以发现，方法，在未指定map_location时，

pytorch多显卡解决爆显存

01-22

在深度学习任务中，对于复杂的神经网络和大规模的训练数据，显存占用成为一个常见问题。当模型和数据超出GPU显存限制时会出现"out of memory"错误。一种有效的缓解方法是调整批处理大小（Batch Size）。如果总批量设...

【硬核攻坚】告别CUDA OOM！DeepSeek部署显存瓶颈终极解决方案：三大策略高效落地

热门推荐

05-16

1万+

最近由于要用到多卡去训模型，尝试着用DDP模式，而不是DP模式去加速训练（很容易出现负载不均衡的情况）。遇到了一点关于DistributedSampler这个采样器的一点疑惑，想试验下在DDP模式下，使用这个采样器和不使用这个采样器有什么区别。实验代码：整个数据集大小为8,batch_size 为4，总共跑2个epoch import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader from

c++builder操作XML

01-16

c++builder操作XML.c++builder操作XML.

torch DDP多卡训练教程记录

岁月如歌

11-10

1434

简明教程看这里 -->--》详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。

DDP分布式训练中遇到的一些问题

xx_xjm的博客

06-11

1773

2：类似于layer_norm这样的操作是无需进行分布式通信的，也无法进行分布式通信，所以在DDP的时候必须把find_unused_parameters设置为True。这个时候可以在命令行前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL, 这样，将找出具体时哪些参数没有接收到梯度，以此更好的调整代码。4：关于0号卡的显存为什么远高于其他卡，暂时不清楚，网上的说法，这种情况时DP才会有的，DDP应该不会出现，希望有知道的大佬能指点一下....遇到在补充..........

【解决警告】多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not

一只菟葵的博客

03-18

5418

解决警告：多卡DDP分布式训练报错Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration, which can adversely affect

【异常错误】 Expected to have finished reduction in the prior iteration before star、find_unused_parameters

Drug discovery

04-04

4474

如果模型的输出有不需要进行反传的(比如部分参数被冻结/或者网络前传是动态的)【如果有forward的返回值如果不在计算loss的计算图里】，设置此参数为True。如果你的代码运行后卡住某个地方不动，基本上就是该参数的问题，设置为find_unused_parameters=True 就可以了find_unused_parameters=True的设置会带来额外的运行时开销（而且还不小）。

深度学习中的踩过的一些坑

记录基于python语言处理气象问题的一些代码，包括不限于气象数据读取、机器学习和深度学习建模。

06-19

6089

深度学习遇到的一些bug和问题不定时更新（希望更新的能越来越少碰不到bug最好）

xxx.pth或者xxx.pt is a zip archive(did you mean to use torch.jit.load()?问题解决

DG息的博客

10-14

3317

错误：使用torch.load()加载模型参数时，提示“xxx.pt is a zip archive(did you mean to use torch.jit.load()?)“或者“xxx.pth is a zip archive(did you mean to use torch.jit.load()?)“ 错误原因： xxx.pth或者xxx.pt来自pytorch1.6或更高的版本。1.6之后pytorch默认使用zip文件格式来保存权重文件，导致这些权重文件无法直接被1.5及以下的pytorc

PyTorch 深度剖析：并行训练的DP和DDP分别在什么情况下使用及实例

limingmin2020的博客

06-23

832

这篇文章从应用的角度出发，介绍 DP 和 DDP 分别在什么情况下使用，以及各自的使用方法。