pytorch_CUDA out of memory

samsara1224

已于 2023-05-19 10:32:01 修改

阅读量516

点赞数

文章标签：深度学习 pytorch 人工智能

于 2023-05-19 10:28:04 首次发布

本文链接：https://blog.youkuaiyun.com/d121028379/article/details/130760706

版权

1.调低batch-size

2.清除缓存

torch.cuda.empty_cache()

3.杀死进程

nvidia-smi

taskkill -PID 进程号 -F

4.低速模式

python xx.py --always-batch-cond-uncond --opt-split-attention

5.限制一次分配的最大单位

export/set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:512

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:128"

6.改输入图片分辨率

imgsz=640

7.换卡加卡

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

samsara1224

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

如何设置 max_split_size_mb 以避免 Pytorch 中的碎片？

我的博客，不一样的自我表达

06-24

7301

本文旨在全面了解 PyTorch 中的内存碎片，并指导您为 max_split_size_mb 设置适当的值。当内存分配和释放的方式在分配的块之间留下小的、不可用的间隙时，就会出现内存碎片。随着内存变得碎片化，较小的空闲内存块会分散在各处，这使得为较大的张量分配连续内存变得困难。该set_max_split_size_mb函数采用两个参数：model（PyTorch 模型）和max_split_size_mb（以兆字节为单位的所需值max_split_size_mb）。

CUDA ~ RuntimeError: CUDA Out of memory解决

whaosoft143ai的博客

05-30

2404

一些可以尝试的解决“RuntimeError: CUDA Out of memory”的方案。在这些选项中，如果你使用的是预训练模型，则最容易和最有可能解决问题的选项是第一个。 whaosoft aiot http://143ai.com 因此，如果你在不将梯度归零的情况下进行 2 个半批次的训练，它们的梯度回累积，最终得到以目标有效批次大小相同的梯度。在训练循环中，我们需要使用计数器根据小batchsize大小进行更新，一旦它达到预设的目标，那就是我们将梯度归零时。在那之前，他们只是通过loss.back

参与评论您还未登录，请先登录后发表或查看评论

OutOfMemoryError: CUDA out of memory.设置PYTORCH_CUDA_ALLOC_CONF无效问题

qq_30908729的博客

05-07

941

OutOfMemoryError: CUDA out of memory. Tried to allocate 2.25 GiB (GPU 0; 4.00 GiB total capacity; 6.68 GiB already allocated; 0 bytes free; 6.73 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to av

CUDA报错:Out of Memory

Coldlebron的博客

10-28

1万+

RuntimeError: CUDA out of memory. Tried to allocate xx GiB (GPU 0; xx GiB total capacity; xx GiB already allocated; xx GiB free; xx GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid

一文读懂 PyTorch 显存管理机制

zandaoguang的博客

04-08

4268

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨米阿罗@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/486360176编辑丨极市平台首发于踢翻炼丹炉：https://www.zhihu.com/column/c_1320691511223136256二次转载须经作者授权导读本文细致的对PyTorch 显存管理机...

CUDA:Out Of Memory问题

qq290048663

02-09

3263

CUDA:Out Of Memor

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

6. **使用内存分析工具**：PyTorch提供了`torch.cuda.memory_allocated()`和`torch.cuda.memory_cached()`等函数，可以帮助监控GPU的显存使用情况，找出内存占用高的部分进行优化。 7. **优化张量布局**：某些操作...

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

01-20

跑模型时出现RuntimeError: CUDA out of memory.错误查阅了许多相关内容，原因是：GPU显存内存不够简单总结一下解决方法：将batch_size改小。取torch变量标量值时使用item()属性。可以在测试阶段添加如下代码：...

RuntimeError: CUDA out of memory. Tried to allocate 62.00 MiB (GPU 0; 6.00 GiB total capacity; 830.92 MiB already allocated; 3.30 GiB free; 890.00 MiB reserved in total by PyTorch) If r eserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

热门推荐

xiyou__的博客

07-06

20万+

Bug：RuntimeError: CUDA out of memory. Tried to allocate … MiB 解决方法：法一：调小batch_size，设到4基本上能解决问题，如果还不行，该方法pass。法二：在报错处、代码关键节点（一个epoch跑完…）插入以下代码（目的是定时清内存）： import torch, gc gc.collect() torch.cuda.empty_cache() 法三（常用方法）：在测试阶段和验证阶段前插入代码 with torch.no_gr

RuntimeError: CUDA out of memory. Tried to allocate 92.00 MiB (GPU 0； 23.68 GiB total capacity问题

Csyunling

04-18

5098

8.85 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF问题。- 设置max_split_size_mb参数，这样可以避免内存碎片化，提高内存利用率。

RuntimeError: CUDA out of memory在不减小batch_size的前提下的解决方案

m0_46749624的博客

11-05

3268

RuntimeError: CUDA out of memory，在不减小batch_size的前提下的解决方案

torch.cuda.OutOfMemoryError: CUDA out of memory.

Hello_World1023的博客

04-25

4万+

发现gpu:0显存被PID:19409程序大量占用, 报错应该是默认在gpu:0训练导致显存不足, 接着查看gpu:0上程序所属用户(如果不是师兄的我就kill了)设置完成后查看显存占用情况可以看到, gpu:1显存占用马上上升了, 不影响其他gpu卡的显存。这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡。这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡。发现gpu:1空闲, 指定gpu:1上训练模型, 有多种方法,

Windows10+3060 “ Pytorch CUDA CuDNN “GPU环境配置

qq_44144025的博客

12-09

1919

（1）NVIDIA显卡驱动程序下载 NVIDIA - 驱动下载（2）CUDA下载 1.CUDA == 10.2 CUDA Toolkit 10.2 Download | NVIDIA Developer 2.验证CUDA安装是否成功首先重启电脑然后在命令行输入`nvcc -V` ，显示如下为成功（3）CuDNN下载 1. 首先要在官网注册一个账号，如果出现“验证程序加载失败”问题，解决方法如下：英伟达账户一直登陆不进去解决办法_du20......

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0; 4.00 GiB total capacity; 3.25 GiB already allocated; 0 bytes free; 3.47 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

03-17

<think>嗯，用户遇到了PyTorch的CUDA内存不足错误，想通过设置max_split_size_mb和PYTORCH_CUDA_ALLOC_CONF来解决。首先，我需要回忆一下PyTorch的内存管理机制。PyTorch使用缓存分配器来管理CUDA内存，这样可以快速分配和释放内存，减少与CUDA API的交互次数。但这也可能导致内存碎片化，尤其是在频繁分配和释放不同大小的内存块时。当显存被分割成许多小块，无法合并成大块时，即使总剩余内存足够，也可能无法分配连续的大内存，从而引发OutOfMemoryError。用户提到的PYTORCH_CUDA_ALLOC_CONF环境变量是用来调整内存分配器的配置的，其中max_split_size_mb是关键参数。根据引用[1]和[4]，设置这个参数可以限制内存块被分割的最大尺寸，从而减少碎片。比如设置为128MB，分配器会尽量避免拆分超过这个大小的块，帮助保留更大的连续内存区域。不过，这个值需要根据具体情况调整，太小可能影响性能，太大可能无法有效减少碎片。接下来需要检查用户的错误信息，特别是保留内存（reserved）远大于已分配内存（allocated）的情况，这说明存在碎片问题。此时建议用户设置max_split_size_mb。同时，用户可能需要检查代码中的批量大小，或者是否有不必要的内存泄漏，比如未释放的张量。此外，使用torch.cuda.empty_cache()可以释放未使用的缓存，但效果可能有限，因为PyTorch的分配器会主动保留内存。另外，用户可能没有正确设置环境变量。根据引用[3]和[4]，需要在代码中通过os.environ来设置，或者在命令行中导出变量。需要确认用户的操作步骤是否正确，比如是否在程序启动前设置，或者是否有其他配置覆盖了这个变量。最后，如果问题仍然存在，可能需要综合其他优化方法，比如减少模型大小、使用梯度检查点或者混合精度训练。需要将这些步骤详细地分点说明，确保用户能逐步排查和解决问题，同时引用提供的资料来支持建议的有效性。</think>### PyTorch CUDA内存不足问题的解决方法当PyTorch出现`CUDA out of memory`错误时，通常由显存不足或内存碎片化引起。以下是逐步解决方案： #### 1. **初步检查与基础优化** - **降低批量大小（Batch Size）**：减少输入数据的批量大小是最直接的缓解方式。 - **释放无用变量**：手动调用`del`删除不再使用的张量，并通过`torch.cuda.empty_cache()`清空缓存： ```python del tensor torch.cuda.empty_cache() ``` - **检查模型复杂度**：确保模型参数量不超过GPU显存容量，可通过`torchsummary`库统计模型内存占用。 #### 2. **配置`PYTORCH_CUDA_ALLOC_CONF`** 当错误提示**“reserved memory >> allocated memory”**时，表明显存碎片化严重。此时需调整内存分配策略： - **设置`max_split_size_mb`**：限制内存块分裂的最大尺寸，减少碎片[^1][^4]。 ```python import os os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:128" # 典型值范围：64-256 ``` - **验证配置生效**：确保环境变量在代码**启动前**设置，避免被覆盖[^3]。 #### 3. **进阶优化方法** - **混合精度训练**：使用`torch.cuda.amp`自动减少显存占用： ```python scaler = torch.cuda.amp.GradScaler() with torch.autocast(device_type='cuda'): outputs = model(inputs) ``` - **梯度检查点**：通过时间换空间，分段计算梯度（需修改模型结构）： ```python from torch.utils.checkpoint import checkpoint x = checkpoint(model_block, x) ``` - **优化数据加载**：使用`pin_memory=True`和`num_workers>0`加速数据传输。 #### 4. **监控与分析工具** - **实时显存监控**： ```python print(torch.cuda.memory_summary()) # 输出显存分配详情 ``` - **使用`nvtop`或`nvidia-smi`**：观察GPU利用率与显存占用趋势。 #### 5. **系统级调整** - **升级驱动与CUDA版本**：确保PyTorch与CUDA版本兼容。 - **分布式训练**：使用多卡并行（如`DataParallel`或`DistributedDataParallel`）。