对于“cudaCheckError() failed : invalid device function”错误的解决方法

最新推荐文章于 2022-03-23 09:09:52 发布

原创最新推荐文章于 2022-03-23 09:09:52 发布 · 4.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#cuda报错

安装教程专栏收录该内容

4 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

我的问题出现在训练faster_rcnn的时候，后来经过在网上寻找解决方案，找到的原因是gpu的计算能力与配置的不符

解决方法：

在make.sh里面

nvcc -c -o roi_pooling.cu.o roi_pooling_kernel.cu \
    -D GOOGLE_CUDA=1 -x cu -Xcompiler -fPIC -arch=sm_52

有这样一句代码，我们需要关注-arch=sm_52这个参数，52这个数字就是与计算能力相关的，我的gpu型号K80，

对照上图，对应是3.7，我设置成了3.5，也就是-arch=sm_35,没有保存，个人推断，只要设置成对应版本或者版本一下的数字就可以，还没有试过其他的，有兴趣的可以试一试。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

angzhangzhang123

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch 使用指定的GPU RuntimeError: CUDA error: invalid device ordinal

Hello Word!

07-31

3万+

pytorch使用指定GPU报错： Traceback (most recent call last): File "test_bed/process_deepglint.py", line 102, in <module> pred_dataset(outputFile) File "test_bed/process_deepglint.py", line 36, in pred_dataset pred_loader_deepg, model, criterion,

sh: write error: Invalid argument

**My Coding Family**

09-26

1328

在上一期中，我们深入探讨了Zipkin：分布式追踪系统。Zipkin为我们提供了微服务之间的调用链路追踪能力，使得我们能够更好地识别性能瓶颈和延迟问题。这为优化服务性能提供了重要的支持。然而，仅依靠追踪信息来进行故障排查和性能分析是远远不够的。在微服务架构中，分布式系统往往会生成大量的日志数据，这些数据对于故障排查、性能监控以及安全审计都至关重要。因此，如何高效管理和分析这些日志成为了另一个迫切需要解决的问题。本期，我们将深入探讨分布式日志管理与分析，特别是使用ELK Stack。

参与评论您还未登录，请先登录后发表或查看评论

RuntimeError: CUDA error: invalid device function【mmdetection错误】

AI414010的博客

10-21

5336

问题：在使用mmdetection做训练的时候，出现错误 RuntimeError: CUDA error: invalid device function 在官网的issue中看到是mmcv的版本不匹配问题，重新安装匹配的mmcv版本即可。官网安装链接环境版本 ubuntu16.04+Anaconda3+python3.7.7+cuda10.0+cuDNN7.6.4.3 pytorch1.6.0+python3.7 mmdetection的安装按照官网教程走即可，mmcv的安装用下面这句: pip

cudaCheckError() failed : invalid device function解决方法

weixin_36670529的博客

03-14

1529

先将出现的问题截图，上图所示为我遇见的错误。我在服务器上（ubuntu14.04），运行smallcorgi/Faster-RCNN的tensorflow代码时候出现的问题，我的显卡是TeslaK40。在百度后发现根本没有切实可行的方法，最后还是使用Google解决了问题，发现在运行代码时候在lib文件夹下面执行make操作的时候需要将make.sh文件进行修改，将arch参数从sm_37改为sm_35。为大家附上参数列表。承接Matlab、Python和C++的编程，机器学习、计算机...

Cuda kernel failed. Error: invalid device function

flaming

06-17

6518

Cuda kernel failed. Error: invalid device function

"cudaCheckError() failed : invalid device function" Tensorflow: 运行Faster-RCNN中的demo.py报错

zhu200829385的博客

05-09

1388

运行Tensorflow版本的Faster-RCNN时，报错“cudaCheckError() failed : invalid device function”，而且没有回溯。GitHub地址：https://github.com/CharlesShang/TFFRCNN (Tensorflow 版本的Faster-RCNN不只这一个，但内容应该都一样)百度无果后果断Google，发现这...

记录配置mmpose出现的cuda报错RuntimeError: CUDA error: invalid device function

weixin_42280271的博客

03-09

3049

记录配置mmpose出现的cuda报错在Ubuntu环境下配置mmpose，按照mmpose工程下的install.md文件配置，创建虚拟环境， 1、conda create -n open-mmlab python=3.7 -y conda activate open-mmlab 2、安装pytorch1.5，cudatoolkit10.1和cudadnn7.6 3、安装mmcv-full，直接使用命令 pip install mmcv-full 4、下载mmpose源码 git clone git@g

CUDA6.5调试向量求程序时出现invalid device function这一问题的解决方案

zju23的专栏

03-11

1210

CUDA6.5调试向量求程序时出现invalid device function这一问题的解决方案出现的问题我也被这个问题困扰了很久，终于在OpenGPU论坛里找到了解决方法，以下是详细步骤： 1、首先明确你的GPU的计算能力进入这个步骤的前提是你的显卡是英伟达的，能够装上CUDA了。方法一：下载GPU Caps Viewer，运行之后再‘CUDA’这个选项卡里有

cuda-convnet在Windows下的使用错误（error：invalid device function）

Lin_huihuang的专栏

04-28

4388

cuda-convnet在windows下的具体配置过程可以参考博客Convnet在Windows下的使用（http://blog.youkuaiyun.com/xuanwu_yan/article/details/12784691），写的很详细。我主要写一下我自己遇到的问题，我的操作系统是win7 X64，使用cuda版本是5.5，vs2012，我在NVIDIA的GT 620和quadro

CUDA程序的”invalid device funciton"错误信息

xlsp的专栏

05-08

2986

Cuda程序运行时出现：invalid device function错误信息时，有可能是编译选项 -arch 选择错误，与显卡支持的版本号不一致，具体显卡支持的版本号可到nVidia官网查看： http://www.nvidia.com/content/cuda/cuda-gpus.html

CUDA 编程之 invalid device function

huyumars的专栏

11-16

2416

最近使用cuda编程经常遇到 invalid device function错误核函数不能

error: invalid device function

nbxuwentao的博客

06-03

4408

这个问题是最进最做科研时遇到的：他的原因就是gpu的配置问题项目名 error: invalid device function 没图片了，只上解决方法吧：把总的cmakelist中的list处换成 list(APPEND CUDA_NVCC_FLAGS “-gencode;arch=compute_20,code=sm_20;-gencode;arch=compute_20,code=sm_2...

Spatial-Correlation-Sampler安装报错CHECK_CUDA(x)&CHECK_INPUT(x)

BruthYU的博客

03-23

2495

源码安装，稍作修改即可一、报错信息截图二、源码安装过程一、报错信息截图二、源码安装过程这个包的原名是Pytorch-Correlation-extension Github地址历史版本点下图红框。下载到本地后解压 tar -xzvf Pytorch-Correlation-extension-0.2.0.tar.gz 激活conda环境 conda activate pytorch [重要]修改报错位置的代码 cd Pytorch-Correlation-exten

解决报错RuntimeError: CUDA error: invalid device function Segmentation fault (core dumped)

weixin_44012382的博客

07-30

8683

首先看一下完整的报错： Traceback (most recent call last): File "train_cross-modal.py", line 414, in <module> train() File "train_cross-modal.py", line 292, in train edge_time.to(device), edge_index.to(device), edge_type.to(device)) File "/home/a

CUDA error 8: invalid device function

TH_NUM的博客

11-06

6955

遇到这种问题：很可能是cuda编译运算的架构，与你当前的显卡不符合。虽然可以编译通过，但是运行时却会出现错误。解决办法： '--gpu-architecture=compute_61', # change compute_70 -> compute_61 '--gpu-code=sm_61', #change sm_70 -> sm_61 ...

error:(-217:Gpu API call)invalid device function in function‘make_policy‘ 错误分析

计算机视觉算法开发与落地

12-10

6498

好了，opencv配置好了，开始编译和安装，这一步就不再赘述了，具体可以看我以前的文章。安装好了之后，我发现在TX2上运行opencv-dnn的推理，GPU能正常启用，但是在NX和AGX上却无法正常启用，都报出了(-217:Gpu API call)错误。60, 61，NX为70，AGX为70，但是使用jtop查看NX与AGX的GPU arch时显示为7.2，猜测可能7.2就是对于的70。其中NVIDIA GPU arch即为你所设置的平台的显卡架构，一般这个值在jetson各系列中，TX2为。

Pytorch训练问题：AssertionError: Invalid device id

weixin_44523603的博客

08-02

8994

在Linux中使用显卡训练网络时，一般会通过device id来确定使用的显卡。我们从GitHub上获取的源码中的device id和我们本地的device id肯定不一致，所以训练时一定要注意device id修改。以下示例：源码： model = nn.DataParallel( model.cuda(), device_ids=[0,1] 源码中使用了id为0和1 的显卡进行训练。本地训练报错： AssertionError: In...

root@8c3a97402d48:/usr/local/corex-4.2.0/examples/cuda# ./dpc Run time GetData: 172335(ms) n: 50000 m: 4 USE_GPU Run time computeDistanceMatrix: 378(ms) Run time computeRho: 192(ms) terminate called after throwing an instance of 'thrust::system::system_error' what(): parallel_for failed: cudaErrorInvalidDeviceFunction: invalid device function Aborted (core dumped)

最新发布

07-08

你遇到的错误信息如下： ``` terminate called after throwing an instance of 'thrust::system::system_error' what(): parallel_for failed: cudaErrorInvalidDeviceFunction: invalid device function Aborted (core dumped) ``` 这是一个典型的 CUDA 错误，表示程序在运行时尝试调用一个 GPU 设备函数（`__device__` 或 `__global__` 函数），但该函数在当前使用的设备上 **不存在或不可执行**。这通常是因为以下几种原因之一： --- ## 🔍 常见原因分析 ### ✅ 1. 编译目标架构不匹配 (`--cuda-gpu-arch`) 如果你编译时指定的目标 GPU 架构与实际运行时的 GPU 不兼容（比如你在编译时使用了 `--cuda-gpu-arch=ivcore10`，而你的显卡不支持这个架构），就会导致找不到对应的设备函数。 **解决方法：** 确保 `-fcuda-targets` 和 `--cuda-gpu-arch` 匹配你的硬件： ```bash clang++ --cuda-gpu-arch=sm_50 ... # 如果是 NVIDIA Kepler/Tesla 架构 ``` 你可以通过以下命令查看你的 GPU 支持的架构： ```bash nvidia-smi -q -d SUPPORTED_CLOCKS ``` 或者使用 `deviceQuery` 工具（来自 CUDA SDK）。 --- ### ✅ 2. 没有正确嵌入 `.fatbin` 文件到可执行文件中你之前编译过程中使用了 `fatbinary` 打包 `.cubin`，并通过 `-Xclang -fcuda-include-gpubinary` 嵌入进主机代码。但如果最终链接阶段没有包含这个参数，GPU 二进制就不会被正确嵌入，导致运行时报错。 **解决方法：** 确保最终链接命令中包含： ```bash -Xclang -fcuda-include-gpubinary -Xclang dpc.fatbin ``` 例如： ```bash clang++ -std=c++11 -Wall \ -Xclang -fcuda-include-gpubinary -Xclang dpc.fatbin \ dpc.o dpc.cpp.o -lcudart -L/usr/local/corex/lib64 -o dpc ``` --- ### ✅ 3. 使用了未在设备端定义的函数或 lambda 表达式如果你在 Thrust 或 CUDA 的 `parallel_for` 中使用了一个未标记为 `__device__` 的函数或 lambda，它就无法在 GPU 上运行。 **示例问题代码：** ```cpp thrust::transform(data.begin(), data.end(), result.begin(), [](float x) { return heavy_computation(x); }); ``` 如果 `heavy_computation()` 没有加 `__device__`，那么它不能在 GPU 上运行。 **解决方法：** 将函数标记为 `__device__`： ```cpp __device__ float heavy_computation(float x) { return x * x + sin(x); } ``` 或者直接写在 lambda 内部并保证其可在设备上执行。 --- ### ✅ 4. 编译器未能正确生成 PTX 或 cubin 有时即使你指定了架构，LLVM/Clang 可能并未正确生成 PTX 或 cubin 文件，或者 fatbinary 没有正确打包它们。 **验证方法：** 检查 `.cubin` 文件是否有效： ```bash nvdisasm dpc.cubin ``` 或使用 `cuobjdump` 查看内容。 --- ## ✅ 推荐调试步骤 1. **确认 GPU 架构是否一致：** ```bash nvidia-smi -q | grep "Product Name" ``` 然后根据型号选择正确的 `--cuda-gpu-arch`，如 `sm_75`（Turing）、`sm_80`（Ampere）等。 2. **打印出 CUDA 驱动和运行时版本：** ```cpp int version; cudaRuntimeGetVersion(&version); std::cout << "CUDA Runtime Version: " << version << std::endl; cudaDriverGetVersion(&version); std::cout << "CUDA Driver Version: " << version << std::endl; ``` 3. **启用 CUDA 调试输出：** 设置环境变量： ```bash export CUDA_LAUNCH_BLOCKING=1 ``` 这会强制 CUDA 同步执行，便于定位出错位置。 --- ## ✅ 示例修复后的完整构建流程（假设使用 sm_75） ```bash # Step 1: 提取设备 IR clang++ -S -emit-llvm --cuda-gpu-arch=sm_75 --cuda-device-only -std=c++11 -Wall -x cuda dpc_t.cu -o dpc.ll # Step 2: 编译设备对象 llc -march=nvptx64 -filetype=obj dpc.ll -o dpc.cuda.o # Step 3: 链接 cubin lld -flavor ld.lld -no-undefined dpc.cuda.o -o dpc.cubin # Step 4: 打包 fatbin fatbinary --cuda --64 --image=profile=sm_75,file=dpc.cubin --create dpc.fatbin # Step 5: 编译主机代码 clang++ -c -std=c++11 -Wall -x cuda --cuda-host-only \ -Xclang -fcuda-include-gpubinary -Xclang dpc.fatbin \ dpc_t.cu -o dpc.o # Step 6: 编译主程序 clang++ -c -std=c++11 -Wall -x c++ -I/usr/local/corex/include dpc.cpp -o dpc.cpp.o # Step 7: 最终链接 clang++ -std=c++11 -Wall \ -Xclang -fcuda-include-gpubinary -Xclang dpc.fatbin \ dpc.o dpc.cpp.o -lcudart -L/usr/local/corex/lib64 -o dpc ``` --- ##