cuda、torch与显卡问题：解决RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

ljt998

已于 2024-04-17 16:57:32 修改

阅读量3.5k

点赞数 12

文章标签： pytorch 深度学习人工智能

于 2024-04-17 15:12:10 首次发布

本文链接：https://blog.youkuaiyun.com/ljt998/article/details/137873004

版权

问题描述：

复现Shi等人的工作时，手动修复FileNotFound错误后定位到RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED。

可以确定此错误由显卡算力、cuda、torch三部分的不匹配问题导致。

其他问题可能有：python版本、训练参数要求的显卡算力过大等，但出现可能性很低。

注意到，如果错误是由于显卡不足的简单问题导致的，修改batch_size可以解决问题，但会影响模型的梯度，故尝试不修改。

解决：

检查显卡、cuda、torch是否匹配：

显卡决定cuda版本（图1、2）---> cuda决定torch版本（图3）。

例：NVIDIA RTX 3090->算力8.6->cuda 11.0->torch 1.7.0/1.7.1

当上述版本链确保正确的情况下仍不能正常训练，尝试修改Python版本；

修改Python版本仍不能解决问题，则修改batch_size等参数。一般情况下工作中给出的训练参数一定会有对应的正确python环境。

查看cuda、torch版本：

import torch
print(torch.__version__)
print(torch.version.cuda)

图1 查找显卡算力

图2 显卡算力与cuda版本

图3 cuda版本与torch版本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ljt998

关注关注

12
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

qq_35260390的博客

08-13

3057

GTX1650+cuda10.0+Ubuntu18.04运行pytorch出现CUDNN_STATUS_EXECUTION_FAILED的一个解决办法欢迎使用Markdown编辑器欢迎使用Markdown编辑器网上关于这个问题的解决方法有很多,有的是更换cudatoolkit,还有的是更换torch和Python的版本的,但是这些在我这里并不适用. 最初我的程序里关于cudnn是这样设置的,当时是使用Ubuntu16.04+cuda9+pytorch1.1 config.CUDNN.BENCHMARK

【pytorch】RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED 报错

weixin_56029873的博客

09-21

2253

这个错误主要与 CUDA 或 cuDNN 相关，常见原因包括显存不足或 CUDA/cuDNN 版本不匹配。你可以从调整batch_size开始，逐步排查是否是硬件资源问题或库版本问题。

1 条评论您还未登录，请先登录后发表或查看评论

【Trick】解决服务器cuda报错——RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

最新发布

m0_65787507的博客

12-22

455

2：通过查看cuda和torch的兼容问题，发现结果是2.0.1+cu117，没问题。通过询问gpt和群友，确定了是cuda自身的问题，因为cpu就能正常运行。3：通过查看cuda available，发现结果是True。5：在需要运行的python文件开头加上cudnn禁用语句。4：把device换成cpu，发现代码能正常运行。其实理论上，换个服务器就能解决我这个问题（）1：通过查看显存，发现不是卡的显存炸了。结果就能正常动起来了！

RuntimeError：CuDNN error：CUDNN_STATUS_EXECUTION_FAILED

weixin_39450145的博客

07-06

2万+

问题：RuntimeError：CuDNN error：CUDNN_STATUS_EXECUTION_FAILED1）解决RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED_乒乒乓乓丫的博客-优快云博客绝大多可能就是cuda，cudnn，vs，python，pytorch版本，其中某个版本出了问题。 2）（已解决）pytorch错误：RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

RuntimeError:cuDNN error:CUDNN_STATUS_EXECUTION_FAILED

Elon15的博客

05-07

2465

CUDA 是 NVIDIA 推出的用于自家 GPU 的并行计算框架，只能在 NVIDIA 的GPU 上运行，而且只有当要解决的计算问题是可以大量并行计算的时候才能发挥 CUDA 的作用。cuDNN 是 NVIDIA 打造的针对深度神经网络的加速库，是一个用于深层神经网络的 GPU 加速库。我在Anaconda下配置了适配服务器CUDA的pytorch，但是报错如下，（下图无限接近于我的错误，但是我忘记截图我的报错了，所以用了下面这张网图）cuDNN 默认会使用，既然目前解决不了匹配问题，就先不用了。

多分类RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

持续战斗状态的博客

04-20

188

比如二分类的标签应该是0，1。而不是1，2或其他。可以检查一下是不是多分类标签不是0开始。

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED解决办法

DaMoWangZQ的博客

09-27

2233

配置： Python 3.7.6, CUDA 10.0,Pytorch 1.3.1, cudNN 7.6 运行时出现如题错误解决办法：在代码前面添加torch.backends.cudnn.enabled = False 作用：网传是禁用cuDNN作用，官网没有查到相应API 说明：网上查到的靠谱的解决办法，意思大都是说各个版本匹配的问题，个人觉得有一定道理，可能是这么回事，以上办法，也只是针对个人的环境下，可以解决 ps： 1、什么是CUDA CUDA(ComputeUnified Device

Ubuntu下出现 RuntimeError: cuDNN error:CUDNN_STATUS_EXECUTION_FAILED问题(21.1.14)

fuchengguo666的博客

01-14

808

Ubuntu下出现 RuntimeError: cuDNN error:CUDNN_STATUS_EXECUTION_FAILED问题具体描述：在ASCC虚拟环境中，cd /home/fc/Aspect-Sentiment-Classification文件，执行’python train_crf_glove.py '语句，出现了’RuntimeError: cuDNN error:CUDNN_STATUS_EXECUTION_FAILED’问题。原因：nvidia-smi显示驱动上安装的CUDA为1

【PyTorch报错已解决】CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb

weixin_46234454的博客

05-05

3836

总结：RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED 这个错误通常表示在调用NVIDIA的CUDA Basic Linear Algebra Subprograms (CUBLAS)库中的函数时出现了问题。具体来说，这里的问题发生在cublasSgemm这个矩阵乘法函数上。但是CUDA的报错信息并没有定位到具体的问题，所以转移到cpu上有助于我们定位问题。在cpu环境下，重新调试代码，找到真实的报错为。

RuntimeError: CUDNN_STATUS_EXECUTION_FAILED

weixin_43290709的博客

05-13

345

禁用就好了，简单省事。 torch.backends.cudnn.enabled = False

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED You can try to repro this exception using t

qq_42251157的博客

01-10

1803

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED You can try to repro this exception using the following code snippet. If that doesn't trigger the error, please include your original repro script when reporting this issue.

解决RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

热门推荐

是鲤鱼啊

01-23

11万+

由于这个问题浪费了我1整天，外加连续4个晚上的时间，所以有必要记录一下曾经踩过的坑，希望后来者引以为鉴，有所启发。最终环境：win10 ，2080ti ，cuda10，cudnn7.3.1，vs2017，python3.6.6，pytorch1.0.0 现象：cuda用窗口命令nvcc -V，可以显示cuda版本号，说明cuda没问题(torch.cuda.is_available()返回的...

RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

08-26

引用中提到了一个讨论，其中提到了关于`RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR`的问题。引用中的博客提到了一种解决方法，即将`torch.backends.cudnn.enabled`设置为`False`。引用中的目录显示了作者在解决这个问题上经历了一系列曲折的过程。综合这些信息，可以得出以下答案: `RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR`是一个常见的错误，通常与深度学习框架PyTorch和cuDNN库有关。这个错误可能由多种原因引起，例如GPU驱动问题、版本不匹配或其他配置问题。为了解决这个问题，可以尝试将`torch.backends.cudnn.enabled`设置为`False`，这将禁用cuDNN加速，但可能会影响模型的性能。此外，还可以尝试更新GPU驱动程序、重新安装PyTorch或检查其他配置问题。需要注意的是，由于这个问题的复杂性和个体差异，可能需要进行多次尝试和调试才能找到最适合的解决方法。123 #### 引用[.reference_title] - *1* [RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR](https://blog.youkuaiyun.com/flashlau/article/details/120724131)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【pytorch】cuDNN error: CUDNN_STATUS_INTERNAL_ERROR终终终终于解决了！](https://blog.youkuaiyun.com/zylooooooooong/article/details/115585582)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]