解决多次forward导致的RuntimeError: Expected to mark a variable ready only once.

最新推荐文章于 2023-11-30 15:56:37 发布

原创

最新推荐文章于 2023-11-30 15:56:37 发布 · 2.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #自动驾驶 #目标检测 #pytorch

在修改BEVDet时遇到RuntimeError，由于两次forward_train操作导致。问题根源在于backbone的with_cp设置。关闭with_cp可以解决，此设置原本用于减少GPU显存占用。使用torch.utils.checkpoint的目的是在forward时不存储中间激活值，而在backward时重新计算并计算梯度。两次forward创建的计算图无法在一次backward中处理。

背景：

最近在修改BEVDet，由于任务需要进行两次forward_train操作，遇到了RuntimeError: Expected to mark a variable ready only once.报错，原因很明显，对网络的某些部分进行了两次计算图的标注，在backward时出现问题。之前在2d上做类似的事情并没有碰到这样的问题。

解决方式

1.参考这位老哥的解决方式网页链接，但我发现这么写会导致后期任务出现问题，且对bevdet的数据已经进行了split操作，再次进行sup和student的数据结合，会增加程序运行时间。
2.在github issue 上发现类似的问题网页链接，经过实践发现只需要关闭backbone的with_cp即可。

究其根本

单纯的解决问题没有任何意义。
mmdetection中提到，在 backbone 中设置 with_cp=True。这使用 PyTorch 中的 sublinear strategy 来降低 backbone 占用的 GPU 显存。

import torch.utils.checkpoint

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

November_R

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RuntimeError: Expected to mark a variable ready only once.

Seven

07-10

3412

但，即使找到这个网络层，其实也比较难解决该问题。方法二一般可以解决该问题。

【PyTorch distributed】多卡训练原理简析与RuntimeError: Expected to mark a variable ready only once.报错分析

weixin_44839047的博客

05-19

4843

当一个bucket中的所有hook都被触发，意味着这个bucket中的变量的梯度都已经计算得到，Reducer便立刻开启横跨所有进程的异步的梯度平均。此时由于不同rank的计算图不一样，没有任何一个bucket会ready，自然任何一个bucket的allreduce也不会被触发，Reducer虽然会在所有bucket变成ready后等待各自完成allreduce操作，但是当所有进程的backward()已经完成梯度的计算，Reducer将不会等待还未进入ready状态的bucket。得到不同的随机参数。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.09.02
恭喜您写了第7篇博客！标题看起来很有深度，关于解决多次forward导致的RuntimeError的问题。我想说，您的持续创作精神值得钦佩。不过，我希望您能够在博客中更详细地解释这个问题的具体原因，以及您是如何解决这个问题的。这样可以帮助读者更好地理解和应用您的解决方案。期待您下一篇博客的发布，继续分享您的经验和见解！

[Pytorch] DDP执行报错 RuntimeError: Expected to mark a variable ready only once.

weixin_42338988的博客

05-06

2280

在调试pytorch分布式DDP代码时，因为需要节省显卡内存，想要用checkpoint机制。网上搜索的多数解决方法都对应了里面的1)，即模型的某部分在逻辑顺序上被重复执行了，在检查代码之后未发现这一情况。

RuntimeError: Expected to mark a variable ready only once. This error is caused by one of the follow

qq_37516798的博客

11-30

2235

pytorch1.9，使用多卡训练GLIP模型时，报如下错误，而单卡却可以正常训练：

解决PyTorch DDP: Finding the cause of “Expected to mark a variable ready only once“

Polaris的博客

04-11

2883

单卡采用分布式训练。

Pytorch——报错解析：RuntimeError: Expected to mark a variable ready only once. This error is caused by one

Irving.Gao的博客

10-30

8619

我在做Semi-Supervised任务时遇到了该BUG，因为在写模型时将student的model运行了两次，分别对两组image进行了forward train并计算了loss，因此出现了如下错误，以此记录。

RuntimeError: CUDA out of memory. Tried to allocate 2.13 GiB (GPU 0； 5.80 Gi..........)

qq_45887007的博客

10-04

1071

mmsegmantation 显存不够

Pytorch节省显存 - checkpoint

weixin_38362784的博客

06-16

2761

Pytorch节省显存 - checkpoint 官方文档: torch.utils.checkpoint.checkpoint 一、查看模型及中间变量的显存占用情况 1. 显存占用参考博客: https://oldpan.me/archives/how-to-calculate-gpu-memory https://zhuanlan.zhihu.com/p/31558973 主要由两个部分组成：模型参数模型计算产生的中间变量：前向计算过程中，隐层的输出都被保存在显存中。后向梯度计算时，需

TypeError: forward() takes 2 positional arguments but 4 were given

weixin_48331187的博客

09-11

3318

这个错误是由于`model_PFNet.py`文件中的`forward`方法定义不正确导致的。根据错误信息，`forward`方法接受了2个位置参数，但实际传递了4个参数。要解决这个问题，你需要检查`model_PFNet.py`文件中的`forward`方法的定义，并确保它接受正确的参数数量。你可以根据实际情况调整`forward`方法的定义来适配传递的参数数量，并确保调用时提供正确的参数。

拿什么拯救我的 4G 显卡： PyTorch 节省显存的策略总结

zandaoguang的博客

06-26

753

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨OpenMMLab来源丨https://zhuanlan.zhihu.com/p/430123077编辑丨极市平台导读随着深度学习快速发展，同时伴随着模型参数的爆炸式增长，对显卡的显存容量提出了越来越高的要求，如何在单卡小容量显卡上面训练模型是一直以来大家关心的问题。本文结合 MMCV 开源库对一...

untimeError: scatter_add() expected at most 5 argument(s) but received 6 argument(s).

binqiang2wang

06-30

1673

RuntimeError: scatter_add() expected at most 5 argument(s) but received 6 argument(s). Declaration: scatter_add(Tensor src, Tensor index, int dim=-1, Tensor? out=None, int? dim_size=None) -> (Tensor) 代码错误定位到这一行: out = op(src, index, 0, None, dim_size,

pytorch distributed常见错误

芒果干的博客

01-16

7294

计算图问题 RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detection by (1) passing th

Pytorch高版本(1.0)跑程序出现的几个错误

yo跟着新宇走

04-09

1万+

Pytorch高版本1.0跑程序出现的几个错误错误 output with shape [1, 28, 28] doesn't match the broadcast shape [3, 28, 28]错误 NotADirectoryError: [WinError 267] 目录名称无效。错误 Expected object of scalar type Long but got scalar ...

Python 在创建多进程时抛出RuntimeError错误

海纳百川

05-04

2万+

一、错误信息 RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase. This probably means that you are not using fork to start your chil...

Pytorch报错 “RuntimeError: Expected to have finished reduction in the prior iteration ... ” 的解决方案

shaojie_45的博客

02-20

9053

在单卡跑代码的时候没有问题，多卡的时候出现报错信息： RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detect

如何解决RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu

最新发布

09-25

该 `RuntimeError` 错误通常在 PyTorch 分布式训练（DDP）中出现，错误原因主要有以下两点： 1. 在 `forward` 函数外使用了模块参数，需要确保模型参数不会在多个并发的前向 - 反向传播过程中共享。若模块图在训练循环中不发生变化，可尝试使用 `_set_static_graph()` 作为解决办法。 2. 在多个可重入的反向传播过程中重复使用了参数。例如，使用多个 `checkpoint` 函数包装模型的同一部分，会导致同一组参数在不同的可重入反向传播过程中被多次使用，从而多次标记一个变量为就绪状态。DDP 默认不支持此类用例，若模块图在迭代过程中不发生变化，可尝试使用 `_set_static_graph()` 作为解决办法。以下是具体的解决方法： ### 确保模型参数不共享检查代码中是否在 `forward` 函数外部使用了模型参数，保证在多个并发的前向 - 反向传播过程中不共享模型参数。可以通过仔细审查代码，确保所有参数的使用都在 `forward` 函数内部进行。 ### 使用 `_set_static_graph()` 若模块图在训练循环或迭代过程中不发生变化，可以尝试使用 `_set_static_graph()` 方法。示例代码如下： ```python import torch import torch.distributed as dist import torch.multiprocessing as mp import torch.nn as nn import torch.optim as optim from torch.nn.parallel import DistributedDataParallel as DDP def setup(rank, world_size): os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = '12355' # initialize the process group dist.init_process_group("nccl", rank=rank, world_size=world_size) def cleanup(): dist.destroy_process_group() class ToyModel(nn.Module): def __init__(self): super(ToyModel, self).__init__() self.net1 = nn.Linear(10, 10) self.relu = nn.ReLU() self.net2 = nn.Linear(10, 5) def forward(self, x): return self.net2(self.relu(self.net1(x))) def demo_basic(rank, world_size): setup(rank, world_size) # create model and move it to GPU with id rank model = ToyModel().to(rank) ddp_model = DDP(model, device_ids=[rank]) # 设置静态图 ddp_model._set_static_graph() loss_fn = nn.MSELoss() optimizer = optim.SGD(ddp_model.parameters(), lr=0.001) optimizer.zero_grad() outputs = ddp_model(torch.randn(20, 10).to(rank)) labels = torch.randn(20, 5).to(rank) loss_fn(outputs, labels).backward() optimizer.step() cleanup() def run_demo(demo_fn, world_size): mp.spawn(demo_fn, args=(world_size,), nprocs=world_size, join=True) if __name__ == "__main__": n_gpus = torch.cuda.device_count() assert n_gpus >= 2, f"Requires at least 2 GPUs to run, but got {n_gpus}" world_size = n_gpus run_demo(demo_basic, world_size) ``` ### 避免重复使用 `checkpoint` 函数检查代码中是否使用了多个 `checkpoint` 函数包装模型的同一部分，若有，调整代码结构，避免同一组参数在不同的可重入反向传播过程中被多次使用。