window10下使用MXNet（GPU）运行神经网络报错：Check failed: e == CUBLAS_STATUS_SUCCESS (13 vs. 0) cuBLAS: CUBLAS_STA

最新推荐文章于 2022-04-26 00:03:51 发布

原创最新推荐文章于 2022-04-26 00:03:51 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#mxnet #gpu

深度学习专栏收录该内容

1 篇文章

订阅专栏

本文记录了一位开发者在使用MXNet框架进行GPU运算时遇到的CUBLAS_STATUS_EXECUTION_FAILED错误，并详细描述了如何通过下载并安装NVIDIA官方提供的CUDA补丁来解决这一问题。

部署运行你感兴趣的模型镜像

运行如下代码

net = nn.Sequential()
net.add(nn.Dense(1))
net.initialize(ctx=mx.gpu())
net(y)

我的cunda是9.0
报错：

MXNetError: [18:02:15] c:\ci\libmxnet_1533399150922\work\src\operator\linalg_impl.h:140: Check failed: e== CUBLAS_STATUS_SUCCESS (13 vs. 0) cuBLAS: CUBLAS_STATUS_EXECUTION_FAILED

解决办法：到nvidia官网下载cunda补丁
我下载的是Patch 2 (Released Mar 5, 2018)

https://developer.nvidia.com/cuda-90-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exenetwork

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xqqqiang

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Check failed: err == CUBLAS_STATUS_SUCCESS (1 vs. 0) : Create cublas handle failed

Less is More

04-13

774

在多GPU机器上训练时出现Check failed: err == CUBLAS_STATUS_SUCCESS (1 vs. 0) : Create cublas handle failed问题，可以尝试打开每张GPU卡到持久性模式 sudo nvidia-smi -pm 1

mxnet src/resource.cc:443: Check failed: e == CUDNN_STATUS_SUCCESS (8 vs. 0) : cuDNN: CUDNN_STATUS_

Hello Word!

07-28

1486

报错： Traceback (most recent call last): File "train_0723.py", line 434, in <module> main() File "train_0723.py", line 430, in main train_net(args) File "train_0723.py", line 424, in train_net epoch_end_callback=epoch_cb) File "/hom

参与评论您还未登录，请先登录后发表或查看评论

Check failed: status == CUBLAS_STATUS_SUCCESS (13 vs. 0) CUBLAS_STATUS_EXECUTION_FAILED

乱七八糟的笔记

04-05

1万+

[ RUN ] PowerLayerTest/3.TestPowerOneGradient F0319 15:50:19.414253 22426 math_functions.cu:92] Check failed: status == CUBLAS_STATUS_SUCCESS (13 vs. 0) CUBLAS_STATUS_EXECUTION_FAILED *** Check...

check failed : status == cublas_status_success(1 vs 0) cublas_status_not_initialized

04-07

4849

关于这个问题，网上有教程说是显卡的版本问题，但这个方法有点麻烦，在使用这个方法之前，可以参考我所使用的方法是在runcaffe的命令前加上sudo就可以解决问题了。...

【caffe】Check failed: status == CUBLAS_STATUS_SUCCESS CUBLAS_STATUS_MAPPING_ERROR

John4July的专栏

04-27

2045

CUBLAS_STATUS_SUCCESS 表示这次计算是成功的 CUBLAS_STATUS_MAPPING_ERROR 表示访问GPU内存失败，这时候就要考虑是不是发生了数据越界，例如访问到了arr[-1]

mxnet stream_gpu-inl.h:62: Check failed: e == cudaSuccess: CUDA: unspecified launch failure Stack tr

Hello Word!

02-18

489

Traceback (most recent call last): File "train_parall_fc7.py", line 409, in <module> main() File "train_parall_fc7.py", line 406, in main train_net(args) File "train_parall_fc7.py", line 401, in train_net epoch_end_callback = epoch_

mxnet报错 Check failed: dshp.ndim() == 4U (3 vs. 4) : Input data should be 4D in batch-num_filter-y-x

Hello Word!

03-11

744

报错：mxnet.base.MXNetError: Error in operator conv0: [17:40:27] src/operator/nn/convolution.cc:152: Check failed: dshp.ndim() == 4U (3 vs. 4) : Input data should be 4D in batch-num_filter-y-x 明明输入数据是4维的，为什么报错？因为用collections.namedtuple装载数据，进行前向预测时，没有给data外面加

mxnet mshadow/./stream_gpu-inl.h:62: Check failed: e == cudaSuccess: CUDA: an illegal memory access

Hello Word!

08-03

910

报错： Traceback (most recent call last): File "train_0723.py", line 455, in <module> main() File "train_0723.py", line 451, in main train_net(args) File "train_0723.py", line 445, in train_net epoch_end_callback=epoch_cb) File "/hom

MxNet base.h:459: Check failed: e == cudaSuccess (30 vs. 0) : CUDA: unknown error nvidia-smi显卡ERR！

Hello Word!

08-09

1436

命令输出缓慢，并且报ERR 1，重启机器 2，重装驱动 3，维修或换显卡

pycaffe出现问题的可能解决办法math_functions.cu:27] Check failed: status == CUBLAS_STATUS_SUCCESS (13 vs. 0) CU

york1996的博客

12-22

890

首先这是gpu推理的时候出现的，我把caffe.set_mode_gpu() 去掉，然后能跑，但是是在cpu上跑的，即时用了caffe.set_device(gpu)这一句。然后说明代码逻辑应该没问题，应为在cpu上能运行然后把下面这两句的位置交换一下，就可以正常用gpu了。 caffe.set_device(gpu) # 设置用哪个gpu caffe.set_mode_gpu() # 用了这个才是真的在gpu上推理然后我又发现，如果不交换顺序，caffe.set_device(gp.

cublas matlab,Check failed: status == CUBLAS_STATUS_SUCCESS (11 vs. 0) CUBLAS_STATUS_MAPPING_ERROR

weixin_39783512的博客

03-16

210

[编译MatCaffe使用如下命令编译MatCaffemake all matcaffe之后，你可以用以下命令测试MatCaffe：make mattest如果你在运行上面命令时，遇到如下错误：libstdc++.so.6 versicaffe出现这个问题时，总让人摸不着头脑，不知从哪儿开始排查问题。网上搜索资料，发现有人说是label做得不对，比如只有1没有0。但是这个是问题吗？就不能只有一个标...

oracle error mapping failed,Check failed: status == CUBLAS_STATUS_SUCCESS (11 vs. 0) CUBLAS_STATUS_M...

weixin_29726381的博客

04-10

126

I0930 21:23:15.115576 30918 solver.cpp:281] Learning Rate Policy: multistepF0930 21:23:17.263314 31011 math_functions.cu:121] Check failed: status == CUBLAS_STATUS_SUCCESS (11 vs. 0) CUBLAS_STATUS_MA...

Check failed: status == CUBLAS_STATUS_SUCCESS (11 vs. 0) CUBLAS_STATUS_MAPPING_ERROR

weixin_33754913的博客

09-30

314

Check failed: status == CUBLAS_STATUS_SUCCESS (11 vs. 0) CUBLAS_STATUS_MAPPING_ERROR

最新发布

07-04

在MXNet中，当尝试使用CUDA设备时遇到`mxnet.base.MXNetError: CUDA invalid device ordinal`错误，通常表示指定的GPU设备索引无效或系统无法识别该设备。以下是对此类问题的详细分析与解决方法： ### 原因分析 1. **设备索引超出范围** 如果调用了类似`mx.gpu(n)`的函数，并且n大于系统中可用的GPU数量减一，则会触发此错误。例如，在只有一个GPU的系统上使用`mx.gpu(1)`会导致“invalid device ordinal”错误[^1]。 2. **驱动程序或库版本不兼容** 若安装了不兼容的NVIDIA驱动程序或CUDA工具包版本，也可能导致此类错误。确保使用的MXNet版本与当前系统中的CUDA和cuDNN版本兼容非常重要[^1]。 3. **未正确安装支持GPU的MXNet版本** 使用标准命令`pip install mxnet`将仅安装CPU版本的MXNet。为了启用GPU支持，必须安装对应的CUDA版本，例如`pip install mxnet-cu112`（适用于CUDA 11.2）[^1]。 4. **环境配置问题** 某些情况下，即使硬件和驱动都正常，但操作系统级别的环境变量未正确设置（如LD_LIBRARY_PATH未包含CUDA库路径），也会导致设备识别失败[^1]。 --- ### 解决方案 #### 验证并选择正确的设备索引在使用`mx.gpu()`之前，应先检查可用的GPU设备数量。可以使用以下代码片段来确认当前系统中可用的GPU设备数： ```python import mxnet as mx print(mx.context.num_gpus()) # 输出可用的GPU数量 ``` 若输出为0，则说明当前环境中MXNet无法检测到任何GPU，此时需要进一步验证是否正确安装了支持GPU的MXNet版本以及相关的CUDA驱动是否正常。 #### 安装正确的MXNet版本确保使用了与本地CUDA版本匹配的MXNet变体。例如，如果系统支持CUDA 11.7，则应安装`mxnet-cu117`： ```bash pip uninstall mxnet -y pip install mxnet-cu117 ``` 安装完成后，再次运行以下代码以确认GPU是否被成功启用： ```python import mxnet as mx print(mx.context.Context('gpu', 0)) # 应输出 gpu(0) 而不是报错 ``` #### 检查CUDA驱动与库文件通过执行`nvidia-smi`命令来确认NVIDIA驱动程序是否已正确安装并能够识别GPU设备。此外，还需验证系统中是否存在正确的CUDA库文件，并将其添加到环境变量中，例如： ```bash export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH ``` 此操作可帮助MXNet找到所需的CUDA运行时库。 #### 使用虚拟环境隔离依赖项为了避免与其他Python项目发生依赖冲突，建议使用虚拟环境进行测试。创建并激活虚拟环境后，重新安装MXNet及其依赖项，以确保环境干净且配置无误： ```bash python -m venv mxnet_env source mxnet_env/bin/activate # Linux/macOS mxnet_env\Scripts\activate # Windows pip install mxnet-cu117 ``` --- ### 示例代码：验证GPU功能以下是一个简单的示例，用于验证MXNet是否能正确使用GPU进行计算： ```python import mxnet as mx from mxnet import nd # 尝试创建一个GPU上下文 ctx = mx.gpu() # 在GPU上创建一个张量并执行简单运算 a = nd.array([1, 2, 3], ctx=ctx) b = nd.array([4, 5, 6], ctx=ctx) c = a + b print(c) # 应输出结果并在GPU上执行 ``` --- ###