【成功解决】ERROR: cuda failure (unknow error) in error_util.h:91

点击目录可跳转

起因

  1. 安装cudnn时,想进行验证操作,进入官方提供的$HOME/cudnn_samples_v8/mnistCUDNN/后,运行./mnistCUDNN时,报了标题的错误。如下图:
    请添加图片描述

  2. 顺便提一下,我是不知道为什么报错“pytorch版本和cuda版本不匹配”,然后不知道怎么办,就把显卡驱动、cuda、pytorch全都卸载了重装。现在说几个点,给同样遇到这个问题的朋友:

    • 事后诸葛亮的说,我觉得可以先看一下pytorch版本,是cpu版的还是cuda版的,我很怀疑是我安某个东西的时候把pytorch版本给劳资换了;
    • 因为cuda高版本可以向下兼容低版本pytorch,比如安的是pytorch+cuda11.8的话,但是cuda版本是12.2,这样是不会出现“版本不匹配”这个报错的;
    • 我当时就是安了一个tensorboard,安之前好好的,安完代码就不能跑了。报错就如上边所说。回想起来可能是tensorboard的时候直接在终端升级了pytorch,但是在终端直接安的话,安的是cpu版本的。(官网安才是gpu版;
    • 所以应该是,直接pytorch卸掉,去官网重新安一下gpu版的就可以了。版本也不用担心,cuda可以向下兼容。
  3. 说这个事情的目的就是,如果有兄弟也是因为报了什么错然后来重装的cuda,那么可以参考一下,我觉得cuda不用管。重装pytorch才是真的解决问题。

原因

  1. 我也是网上看的,有个帖子里,有个哥们报错信息类似,我这后边是error_util.h:91,他那后边是error_util.h:92,我觉得异曲同工吧,然后方法就是那个帖子里找的(不过现在找不到那个帖子了;

  2. 帖子并未给出真的切实可行的办法,更没有解释出原因;

  3. 但是有的人reboot重启系统就不报错了。我试了,不行,好多兄弟姐妹也去试了,有的人可以,有的人也不行;
    请添加图片描述

  4. 上边那个就是重启解决,你不妨也重启一下试试行不行。

  5. 然后下边这哥们就是重启不管用的,和我一样,但是他提出了另一种办法:
    请添加图片描述

  6. 他说"Rebooting or using sudo for the cudnn test is not working",等于说还有一种办法是sudo ./mnistCUDNN嘛。我试了一下,可以了。
    请添加图片描述
    出现Test passed!,应该就可以了吧

  7. 不过具体是什么原因不知道,那可能是权限问题吧。不清楚。

解决办法

可详细看一下上一部分 # 原因 的内容

  1. reboot重启系统
  2. sudo ./mnistCUDNN
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值