踩过cuda、cudnn的坑[持续更新]

最新推荐文章于 2025-10-14 11:05:03 发布

原创最新推荐文章于 2025-10-14 11:05:03 发布 · 置顶 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#cuda #cudnn

坑专栏收录该内容

1 篇文章

订阅专栏

本文探讨了在使用PyTorch和TensorFlow等深度学习框架时遇到的GPU内存溢出问题，提供了包括调整显存分配比例、启用显存按需增长、禁用cuDNN等多种解决方案。

加载torch模型，测试数据
导致内存溢出，

RuntimeError: CUDA out of memory.	# 内存溢出

运行一段时间，程序再崩：
那估计就是代码中有加载到内存中的东西没有释放。
如运行plt模块会造成内存溢出，估计是plt模块未释放：

plt.close("all")

如果是TensorFlow的框架问题:
设定一下TensorFlow框架的消耗显存

# 使用GPU30% 的显存
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.3)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))
# 根据使用需求增长分配显存
config = tf.ConfigProto()  
config.gpu_options.allow_growth=True  
sess = tf.Session(config=config)

显卡问题的解决方案：

# 禁用cudnn
torch.backends.cudnn.benchmark = Flase

可以使程序正常运行，但是降低运行速度，并且全局禁用cudnn。
建议：
当你跑完这个训练项目的时候，新建一个test.py，插入一下代码，运行一遍。

import torch
# 开启cudnn
torch.backends.cudnn.benchmark = True

如下，该错误基本是由于Torch版本和CUDA版本不匹配的原因，对你Torch版本进行修改。

RuntimeError: CUDNN_STATUS_MAPPING_ERROR

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

th512

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

《Python基础教程》内容总览篇（持续更新中）

weixin_43178406的博客

08-26

31万+

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为优快云博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。个人精心开设的《Python基础课程》专栏订阅量接近900，帮助不少同学解决了Bug。

Win10 Anaconda下TensorFlow-gpu环境搭建详细教程（包含cuda+cudnn安装过程）

cugwangwei的博客

01-17

4771

目录前言配置环境，研究了一整天，踩了很多坑，在网上找了很多资料，发现基本上都没非常明确的教程，所以今天想分享一下配置tensorflow GPU版本的经验，希望能让各位朋友少走些弯路。（PS：一切的前提，你需要有一张Nvidia显卡。我的显卡是3090） Tensorflow有两个版本：GPU和CPU版本，CPU的很好安装；GPU 版本需要 CUDA 和 cuDNN 的支持，如果你是独显+集显，那么推荐你用GPU版本的，因为GPU对矩阵运算有很好的支持，会加速程序执行！并且CUDA是Nvidia下属的程

参与评论您还未登录，请先登录后发表或查看评论

ZED（一）更新显卡驱动+CUDA+cuDNN 【windows】

weixin_49080892的博客

06-08

3277

zed学习（一），更新显卡驱动、CUDA、cuDNN。安装全过程以及问题解决。

Windows系统下CUDA、cuDNN与PyTorch的更新与安装全攻略

yxn4065的博客

06-05

1万+

CUDA是NVIDIA推出的一个并行计算平台和编程模型，它允许开发者使用NVIDIA的GPU进行高性能计算。CUDA提供了一套丰富的API，使得开发者能够轻松地编写在GPU上运行的并行代码，从而显著提高计算性能。官网：https://developer.nvidia.com/这是一个包含CUDA编译器、调试器、性能分析工具等的开发套件，用于帮助开发者构建、优化和调试CUDA应用程序。CUDA Toolkit是开发CUDA程序的基础。cuDNN是NVIDIA专门为深度神经网络设计的一套加速库。

【解决 PyTorch 中 cuDNN 报错：CUDNN_STATUS_MAPPING_ERROR（在 SAM 编码器环境下的定位与修复）

最新发布

m0_56655514的博客

10-14

1058

分类建议⚙️环境管理保持 PyTorch 与 CUDA 版本匹配，避免混用 cuDNN 旧版📏输入规范确保输入尺寸为 patch 大小整数倍💡设备管理用获取 GPU 设备🧠调试习惯用精确定位 cuDNN 报错🔄稳定性长时训练后建议清理 CUDA 上下文或重启进程表面上是底层错误，实质上反映的是显存映射的逻辑错误或上下文不匹配。掌握以下排查逻辑——设备一致性 → 尺寸匹配 → cuDNN 兼容性 → 显存状态就能快速定位问题来源，稳定运行带 SAM 编码器的训练任务。

显卡、显卡驱动、显存、GPU、CUDA、cuDNN

weixin_30954265的博客

03-07

321

显卡Video card，Graphics card，又叫显示接口卡，是一个硬件概念（相似的还有网卡），执行计算机到显示设备的数模信号转换任务，安装在计算机的主板上，将计算机的数字信号转换成模拟信号让显示器显示出来。显卡是计算机的标配之一，计算机要显示图像就必须安装显卡。普通计算机的显卡一般是集成在主板上的。显卡驱动显卡驱动是显卡跟计算机连接的桥梁，可以让计算...

Cudnn占用大量内存问题

XCCCCZ的博客

09-30

1314

近来在对一个3D图像识别模型做部署裁剪时发现，做了一些有效的裁剪后，模型启动后占用的内存虽然减少了两三百个M，但是再继续对网络做裁剪缺减少不明显了，包含封装调用这个模型的deepstream插件在内始终占用800多个M，感觉很奇怪，于是花了些时间，捣腾琢磨网络本身的C++实现代码，找出哪些代码执行后占用了可观的内存，最后发现，其他跟训练有关的可减的都减了也没见省多少内存，但是模型启动的过程中，当cudnn的API被第一次调用时，启动有卡顿，同时看着内存一路不停飙升，把相关网络层的代码注释掉试试，...

cuDNN:Efficient Primitives for Deep Learning 解读

grandpi的专栏

09-07

2666

一直用cuDNN所以很好奇其实现，于是花了点时间看了一下cuDNN:Efficient Primitives for Deep Learning，还是很容易懂的。 1. caffe的卷积首先，caffe的卷积操作是讲卷积转化为矩阵乘法，然后就可以用已有的GPU矩阵乘法的优化算法进行计算。具体可以参见[这篇博文] 。(http://blog.youkuaiyun.com/mounty_fsc/artic

CUDA配置血泪史：DeepSeek本地部署中90%人都踩过的8大错误及修复方法

# CUDA与DeepSeek本地部署实战：从环境搭建到故障排查的完整指南在AI工程化落地的过程中，我们经常遇到这样一个尴尬局面：模型明明训练好了，参数也导出了，但一到客户现场或测试服务器上运行，就报出“CUDA not ...

AI系统可靠性设计避坑手册：架构师踩过的20个坑，帮你少走1年弯路

Python编程之道的博客

09-10

549

构建高效CUDA开发环境：nvcc、Nsight、cuDNN工具链配置的8步完整流程

你有没有遇到过这样的场景：明明写了一模一样的卷积层，别人的PyTorch训练速度却快了3倍？或者你的Nsight分析报告显示SM利用率只有20%，而理论上应该接近80%？别急，问题很可能不出在算法本身，而是你的**CUDA工具链...

pytorch禁用cudnn（一行代码）

12-08

pytorch禁用cudnn（只有一行代码） torch.backends.cudnn.enabled = False

【Pytorch】RuntimeError: CUDA out of memory 问题解决

qq_42112018的博客

11-20

4859

RuntimeError: CUDA out of memory 问题解决

显存溢出：RuntimeError Unable to find a valid cuDNN algorithm to run convolution

pengxiang1998的博客

03-19

2785

按照这个报错猜测可能是cuDNN出了问题，但转念一想我的cuDNN明明是配置好的呀，难道断电还能影响配置，显然是不可能的。在使用服务器跑实验的过程中，突然停电了，看到本地终端的控制台提示训练已终止，不由得心中一紧，在想难道近几日的成果要付之东流了吗？此时的程序并没有终止，依旧在运行，这种情况之前就发生过，断开连接后程序依旧运行一段时间，随后才会终止。不过好在为防万一给项目设置了断点训练，只需要重启实验即可。而当我重新设置好相关参数准备再次开始实验时，却报错了。不出所料，过一会后程序便终止了。

禁用cudnn

weixin_43290709的博客

05-13

2220

torch.backends.cudnn.enabled = False

CUDA error:out of memory