mmaction2-CUDA error: out of memory

最新推荐文章于 2025-05-17 09:07:23 发布

原创最新推荐文章于 2025-05-17 09:07:23 发布 · 406 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #人工智能

程序在运行时默认使用了内存满的GPU0号卡导致CUDA错误，通过设置环境变量CUDA_VISIBLE_DEVICES为2号卡，确保程序从开始就在指定GPU上运行，解决了内存问题。关键在于设置环境变量的代码需置于程序开头。

部署运行你感兴趣的模型镜像

mmaction2-RuntimeError: CUDA error: out of memory

提示：bug
在这里插入图片描述

问题描述

遇到的问题：

在程序中设置用2号卡，但运行后报错 ”CUDA error out of memory"，
在这里插入图片描述
检查发现2号卡内存没问题。

在终端输入：

gpustat --w

查看运行时的内存走向

发现运行时mmaction先默认在0号卡上运行，但由于这里0号卡内存满了所以报错，至此解决方向为将程序一开始就放在指定gpu上运行

解决方案：

网上解决方法为：

import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"

但是关键是：这条语句一定要放在程序的最前面，一定要放在最前面！一定要放在最前面！一定要放在最前面！

运行成功！

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ll7_ll

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

mmap引起的内存泄漏分析

weixin_42296411的博客

06-14

694

根据客户提供的/proc/meminfo数据发现，MemAvailable 由294072kB减小至18128kB，减小约269MB，引起该变化的最直接原因是PageTables由61416KB增加到了334460kB，增加约266MB。同时观察Aon和Slab的变化，均未出现明显的增加，由此可判定，内存单纯的消耗在了PageTables项了。为进一步分析，让客户提供了/proc/vmallocinfo信息，发现ioremap的次数并不多，所以推测可能是用户态做了重复的mmap映射，并让客户自查代码。

PyTorch报错RuntimeError: CUDA error: out of memory的显存优化

shejizuopin的博客

05-28

1209

本文系统介绍了PyTorch中常见CUDA显存不足问题的解决方案。文章首先分析了显存溢出的四大原因：批量过大、模型复杂、显存碎片化及数据类型不当。随后提出包含8种具体措施的优化矩阵，涵盖基础策略（批量调整、梯度累积）、模型优化（剪枝量化、轻量模型）、高级管理（混合精度、显存监控）和数据优化（DataLoader配置、输入尺寸调整）。每种方法均附代码示例和性能对比数据，如混合精度训练可节省50%显存并提升速度10-20%。最后提供验证流程和常见问题解答，建议优化路径为：先调批量/梯度累积，再考虑模型轻量化，最

参与评论您还未登录，请先登录后发表或查看评论

CUDA：out of memory的解决方法（实测有效）

大摆王的博客

05-08

1万+

CUDA out of memory问题通常发生在深度学习训练过程中，当GPU的显存不足以容纳模型、输入数据以及中间计算结果时就会触发。：深度学习模型尤其是大型模型，如Transformer或大型CNN，拥有大量的参数，这些参数在训练时需要被加载到GPU显存中。同时，如果批量大小（batch size）设置得过大，一次性处理的数据量也会增加，进一步加大显存的负担。

pytorch 模型训练时多卡负载不均衡（GPU的0卡显存过高）解决办法（简单有效）

Lisen’s blog

05-14

2万+

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。如下图所示：本机GPU卡为TITAN RTX，显存24220M，batch_size = 9，用了三张卡。第0卡显存占用24207M，这时仅仅是刚开始运行，数据只是少量的移到显卡上，如果数据在多点，0卡的显存肯定撑爆。出现0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。因此，为了防止训练由于 out of memory

【mmaction2 调用指定GPU】mmaction2 使用指定编号的GPU训练模型

CSPhD-winston的博客

10-12

1997

如果自己的电脑有多个GPU，如何在mmaction2中调用指定的GPU呢？下面教你一行代码实现 tools/train.py 进入到 / mmaction2/ tools / train.py 中找到如下代码：注释掉红色框中的代码，然后在下面添加如下代码： cfg.gpu_ids = range(1,2) 这一行的意思是，rang（1，2），那么可选的就是只有1，那么就是调用第1块GPU（注意，GPU编号从0开始）。如果要调用第2块GPU，就改成range(2,3) 然后就是直接训练：看结果

解决出现CUDA error:out of memory的问题

qq_46542320的博客

05-24

2万+

使用：CUDA_VISIBLE_DEVICES限制一下使用的GPU。CUDA_VISIBLE_DEVICES=0,1 则使用这两张GPU。CUDA_VISIBLE_DEVICES=0 则使用第一张GPU。CUDA_VISIBLE_DEVICES=1，则使用第二张GPU。如何设置CUDA_VISIBLE_DEVICES？例如：有两块GPU，即0,1号GPU，查阅资料，发现是显卡内存不足。

精选资源

解决出现CUDA error-out of memory的问题.pdf

11-16

然而，在训练深度学习模型时，我们经常遇到“CUDA error: out of memory”这样的错误，这表明GPU的显存不足以运行当前的任务。本文将详细介绍这个问题的原因、影响以及解决方法。 ### 问题原因 1. **模型复杂度过...

Hugging Face报错「RuntimeError: CUDA error: out of memory」：大模型推理的显存管理与模型蒸馏策略

shejizuopin的博客

05-17

1011

在处理大模型推理任务时，Hugging Face用户常遇到RuntimeError: CUDA error: out of memory错误，尤其在显存资源有限的情况下。本文系统性解析了该错误的成因，并提供了从显存管理到模型蒸馏的完整解决方案。错误成因分析模型规模过大：模型参数、KV缓存或激活值占用显存超过GPU容量。批量大小设置不当：输入序列长度或batch size超出显存承载能力。显存未及时释放：框架内存管理失效或缓存未清理。混合精度训练配置错误：半精度（FP16）与全精度（FP32）混合计

解决RuntimeError: CUDA error: out of memory

qq_43733107的博客

01-09

1万+

bug

CUDA error: out of memory

ayuuuuu的博客

03-07

2731

GPU报错解决方案

解决运行出现CUDA error:out of memory的问题

热门推荐

qq_30653631的博客

07-04

4万+

模型运行出现以下问题，经过查找资料发现解决方案如下： CUDA_VISIBLE_DEVICES限制一下使用的GPU。比如有0,1,2,3号GPU，CUDA_VISIBLE_DEVICES=2,3，则当前进程的可见GPU只有物理上的2、3号GPU，此时它们的编号也对应变成了0、1，即cuda:0对应2号GPU，cuda:1对应3号GPU。如何设置CUDA_VISIBLE_DEVICES: ① 使用python的os模块 import os os.environ[‘CUDA_VISIBLE_DEVICES

解决CUDA error: out of memory

NanXian Lin的博客

03-30

2万+

前情提要：本人遇到的问题是在训练是正常，一到验证时就会出现cuda error: out of memory的问题解决思路溯寻： 1.首先就是考虑减少batch_size和num_worker，对于我的情况不奏效 2.然后找到pin_memory发现是设置的True，改为false，仍旧不管用 3.包括把 # Empty GPU cache if torch.cuda.is_available(): torch.cuda.empty_cache()...

CUDA out of memory 解决办法

smile_lx的博客

03-06

1260

更换更好的GPU 减小batch_size的值

CUDA error: out of memoryCompile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

qq_40657974的博客

01-23

1779

os.environ["CUDA_VISIBLE_DEVICES"] = '7'写在文件的最前面。watch -n 1 -d nvidia-smi 实时看卡的显存占用。写在import torch前面。

Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

NKhth的博客

04-24

2万+

遇到这个报错，先别急着干其他的，先把device改成CPU试一试，可能就把真正的问题报出来了。

训练时出现的显存错误CUDA error: out of memory

Willjzq1的博客

06-18

8923

RuntimeError: CUDA error: out of memory 出现这种错误一般分两种情况：第一种情况是你的显卡的显存确实不够，解决方法就是改动 bathsize 这些超参数试试，或者氪金买卡；第二种情况是显卡的性能能满足，但是被其他的进程占用了，所以可分配的显存不足，解决方法就是结束这些占用显卡的进程从而使现存得到释放。具体地：在Linux中，在终端输入 nvidia-smi 查看占用显存的PID进程号，然后输入 kill -9 -PID 在Windows中，直

MMaction2运行demo 报错KeyError: ‘TopDownGetBboxCenterScale is not in the pipeline registry

Rummmm的博客

07-08

1374

问题描述：按照官方的安装步骤走，在安装mmpose这一步中采取之前博客中提到的安装mmpose==0.25.1版本，但出现了新的问题：KeyError: 'TopDownGetBboxCenterScale is not in the pipeline registry反复重装环境几次试过也试过都没有解决问题，最后试了一下直接用这里自动安装的是0.28版本。成功运行了demo，估计是因为0.25版本已经不适配了...

conda环境下Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions问题解决

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

11-11

1万+

Bert-VITS2语音训练语料中，不能包含英文字母，如果包含英文字母，则可能出现以上问题，通过正则表达式过滤掉包含英文字母的语料，问题解决。经过尝试发现，只保留一个人的100句语料进行语音训练，没有发生问题。尝试更换多个版本的torch和cuda，问题依旧存在。查看cuda和torch的版本。

深度学习报错“Compile with TORCH_USE_CUDA_DSA to enable device-side assertions”解决方法

xxiaot的博客

03-06

1万+

在使用PyTorch进行深度学习模型训练时，尤其是依赖GPU加速的情况下，偶尔会遇到一些与CUDA相关的错误提示。最近我在训练模型时，就碰到了一个这样的报错：Compile with ‘TORCH_USE_CUDA_DSA’ to enable device-side assertions.这个错误是在调用进行反向传播时触发的。经过一番排查，我发现问题的根源是GPU显存不足，最终通过降低batch_size解决了这个报错。今天，我就把这个问题的分析和解决过程分享出来，希望能帮到遇到类似问题的朋友！

RuntimeError: CUDA error: out of memory

最新发布

06-27

### 解决 `RuntimeError: CUDA error: out of memory` 的方法在使用CUDA进行深度学习计算时，遇到 `RuntimeError: CUDA error: out of memory` 是一个常见的问题。这通常表示当前GPU的显存不足以支持模型的训练或推理过程。 #### 1. **调整使用的GPU设备** 当存在多个GPU时，默认情况下程序会尝试使用0号GPU。如果0号GPU被其他进程占用，即使其他GPU是空闲的，也会导致错误。可以通过设置环境变量 `CUDA_VISIBLE_DEVICES` 来控制可见的GPU设备，并将任务分配到空闲的GPU上。例如，若希望使用1号GPU： ```python import os os.environ['CUDA_VISIBLE_DEVICES'] = '1' ``` 此外，在加载模型时，如果模型是在特定GPU上保存的（如 `cuda:0`），但当前希望将其加载到另一个GPU（如 `cuda:1`），可以使用 `map_location` 参数来映射设备： ```python model.load_state_dict(torch.load('trained.pth', map_location={'cuda:0': 'cuda:1'})) ``` 这种方法可以帮助避免因GPU编号变化而导致的错误[^1]。 #### 2. **减少显存消耗** 如果显存不足，可以采取以下措施来降低显存使用量： - **减小Batch Size**：这是最直接的方法之一。每减少一次batch size的一半，显存需求大约也会减少一半。例如，将batch size从64减少到32。 - **使用 `torch.no_grad()`**：在推理阶段，不需要计算梯度，因此可以使用 `with torch.no_grad():` 上下文管理器来禁用梯度计算，从而节省大量显存。 - **降低输入尺寸**：例如，将输入图像的分辨率从 `(224, 224)` 减小到 `(112, 112)`，可以显著减少显存占用。 - **更换更轻量级的模型结构**：选择参数更少、计算量更低的模型，如MobileNet、EfficientNet等，可以在不牺牲太多性能的情况下减少显存需求。 - **启用多卡训练**：通过 `torch.nn.DataParallel` 或 `torch.nn.parallel.DistributedDataParallel` 实现多GPU并行训练，这样可以将数据分发到多个GPU上，从而降低单个GPU的显存压力。启动脚本时可以指定使用的GPU： ```bash CUDA_VISIBLE_DEVICES=0,1 python3 train.py ``` - **开启混合精度训练（FP16）**：使用混合精度（如 `torch.cuda.amp` 模块）可以有效减少显存使用，同时加速训练过程。 - **使用Gradient Checkpointing**：这是一种以时间换空间的技术，前向传播时不保存中间激活值，反向传播时重新计算它们，从而减少显存占用。适用于Transformer等结构复杂的模型。 - **采用DeepSpeed或FSDP（Fully Sharded Data Parallel）**：这些高级分布式训练框架可以进一步优化显存使用，甚至允许训练数十亿参数的模型。 - **引入LoRA（Low-Rank Adaptation）或QLoRA**：对于大型语言模型，可以通过冻结主干网络，仅训练额外添加的小型低秩矩阵来大幅减少显存需求。 #### 3. **监控和管理GPU资源** 为了更好地理解当前GPU的状态，可以使用 `nvidia-smi` 命令查看GPU的使用情况和显存占用情况。确保没有其他无关进程正在占用目标GPU，必要时可以终止占用GPU的进程。此外，需要注意的是，`CUDA_VISIBLE_DEVICES` 设置会影响设备编号。例如，若设置了 `CUDA_VISIBLE_DEVICES=2,3`，则在这两个物理GPU中，逻辑上的0号GPU对应的是物理上的2号GPU，1号GPU对应的是3号GPU。这种映射关系需要特别注意，尤其是在多GPU环境中进行调试时[^4]。 --- ###