mmaction2-CUDA error: out of memory

程序在运行时默认使用了内存满的GPU0号卡导致CUDA错误,通过设置环境变量CUDA_VISIBLE_DEVICES为2号卡,确保程序从开始就在指定GPU上运行,解决了内存问题。关键在于设置环境变量的代码需置于程序开头。
部署运行你感兴趣的模型镜像

mmaction2-RuntimeError: CUDA error: out of memory

提示:bug
在这里插入图片描述


问题描述

遇到的问题:

在程序中设置用2号卡,但运行后报错 ”CUDA error out of memory",
在这里插入图片描述
检查发现2号卡内存没问题。

在终端输入:

gpustat --w

查看运行时的内存走向

发现运行时mmaction先默认在0号卡上运行,但由于这里0号卡内存满了所以报错,至此解决方向为将程序一开始就放在指定gpu上运行

解决方案:

网上解决方法为:

import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"

但是关键是:这条语句一定要放在程序的最前面,一定要放在最前面!一定要放在最前面!一定要放在最前面!

运行成功!


您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

### 解决 `RuntimeError: CUDA error: out of memory` 的方法 在使用CUDA进行深度学习计算时,遇到 `RuntimeError: CUDA error: out of memory` 是一个常见的问题。这通常表示当前GPU的显存不足以支持模型的训练或推理过程。 #### 1. **调整使用的GPU设备** 当存在多个GPU时,默认情况下程序会尝试使用0GPU。如果0GPU被其他进程占用,即使其他GPU是空闲的,也会导致错误。可以通过设置环境变量 `CUDA_VISIBLE_DEVICES` 来控制可见的GPU设备,并将任务分配到空闲的GPU上。例如,若希望使用1GPU: ```python import os os.environ['CUDA_VISIBLE_DEVICES'] = '1' ``` 此外,在加载模型时,如果模型是在特定GPU上保存的(如 `cuda:0`),但当前希望将其加载到另一个GPU(如 `cuda:1`),可以使用 `map_location` 参数来映射设备: ```python model.load_state_dict(torch.load('trained.pth', map_location={'cuda:0': 'cuda:1'})) ``` 这种方法可以帮助避免因GPU编变化而导致的错误[^1]。 #### 2. **减少显存消耗** 如果显存不足,可以采取以下措施来降低显存使用量: - **减小Batch Size**:这是最直接的方法之一。每减少一次batch size的一半,显存需求大约也会减少一半。例如,将batch size从64减少到32- **使用 `torch.no_grad()`**:在推理阶段,不需要计算梯度,因此可以使用 `with torch.no_grad():` 上下文管理器来禁用梯度计算,从而节省大量显存。 - **降低输入尺寸**:例如,将输入图像的分辨率从 `(224, 224)` 减小到 `(112, 112)`,可以显著减少显存占用。 - **更换更轻量级的模型结构**:选择参数更少、计算量更低的模型,如MobileNet、EfficientNet等,可以在不牺牲太多性能的情况下减少显存需求。 - **启用多训练**:通过 `torch.nn.DataParallel` 或 `torch.nn.parallel.DistributedDataParallel` 实现多GPU并行训练,这样可以将数据分发到多个GPU上,从而降低单个GPU的显存压力。启动脚本时可以指定使用的GPU: ```bash CUDA_VISIBLE_DEVICES=0,1 python3 train.py ``` - **开启混合精度训练(FP16)**:使用混合精度(如 `torch.cuda.amp` 模块)可以有效减少显存使用,同时加速训练过程。 - **使用Gradient Checkpointing**:这是一种以时间换空间的技术,前向传播时不保存中间激活值,反向传播时重新计算它们,从而减少显存占用。适用于Transformer等结构复杂的模型。 - **采用DeepSpeed或FSDP(Fully Sharded Data Parallel)**:这些高级分布式训练框架可以进一步优化显存使用,甚至允许训练数十亿参数的模型。 - **引入LoRA(Low-Rank Adaptation)或QLoRA**:对于大型语言模型,可以通过冻结主干网络,仅训练额外添加的小型低秩矩阵来大幅减少显存需求。 #### 3. **监控和管理GPU资源** 为了更好地理解当前GPU的状态,可以使用 `nvidia-smi` 命令查看GPU的使用情况和显存占用情况。确保没有其他无关进程正在占用目标GPU,必要时可以终止占用GPU的进程。 此外,需要注意的是,`CUDA_VISIBLE_DEVICES` 设置会影响设备编。例如,若设置了 `CUDA_VISIBLE_DEVICES=2,3`,则在这两个物理GPU中,逻辑上的0GPU对应的是物理上的2GPU,1GPU对应的是3GPU。这种映射关系需要特别注意,尤其是在多GPU环境中进行调试时[^4]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值