
TensorRT_CUDA
文章平均质量分 69
TensoRT/CUDA使用过程中遇到的问题记录
陈 洪 伟
这个作者很懒,什么都没留下…
展开
-
深度学习算法模型概念整理----模型量化、校准、模型蒸馏、算子、算子融合
深度学习算法模型的几个概念整理----模型量化、校准、模型蒸馏、算子、算子融合。原创 2025-05-26 17:46:56 · 986 阅读 · 0 评论 -
CUDA编程(6):CUDA流、并发内核执行、重叠核函数执行与内核传输、流回调
CUDA编程(6):CUDA流、并发内核执行、重叠核函数执行与内核传输、流回调原创 2025-03-14 15:21:28 · 1174 阅读 · 0 评论 -
CUDA编程(5):线程束的线程同步函数、线程束表决函数、线程束洗牌函数
CUDA编程(5):线程束的线程同步函数、线程束表决函数、线程束洗牌函数原创 2025-03-13 15:38:20 · 772 阅读 · 0 评论 -
CUDA编程(4):共享内存:减少全局内存访问、合并全局内存访问
CUDA编程(4):共享内存:减少全局内存访问、合并全局内存访问原创 2025-03-12 19:37:01 · 1112 阅读 · 0 评论 -
CUDA编程(3):内存模型(全局/常量/纹理/共享内存/寄存器/局部内存)、内存管理(零拷贝/UAV/统一内存寻址)
CUDA编程(3):内存模型(全局/常量/纹理/共享内存/寄存器/局部内存)、内存管理(零拷贝//UAV/统一内存寻址)原创 2025-03-11 17:05:02 · 1155 阅读 · 0 评论 -
CUDA编程(2): 线程束执行的本质、规约问题、循环展开
CUDA编程(2): 线程束执行的本质、规约问题、循环展开原创 2025-03-10 16:40:30 · 1070 阅读 · 0 评论 -
YOLOv8-OBB:利用TensorRT编写Plugin,CUDA编写后处理相关核函数,TensorRT和CUDA代码分析
YOLOv8-OBB:利用TensorRT编写Plugin,CUDA编写后处理相关核函数,TensorRT和CUDA代码逐行分析原创 2025-02-14 14:54:29 · 909 阅读 · 2 评论 -
/usr/include/c++/11/bits/std_function.h:530:146: error: parameter packs not expanded with ‘...’:
/usr/include/c++/11/bits/std_function.h:530:146: error: parameter packs not expanded with ‘...’:原创 2024-09-14 16:34:23 · 737 阅读 · 0 评论 -
虚拟内存、内存分段、分页、CUDA编程中的零拷贝
虚拟内存、内存分段、分页、CUDA编程中的零拷贝原创 2024-09-12 18:55:50 · 1209 阅读 · 0 评论 -
解决caffe不支持cudnn8问题--error: ‘cudnnGetConvolutionForwardAlgorithm’ was not declared in this scope
之前服务器中的环境是cuda10.0和cudnn7,后来更换了cuda11.0和cudnn8之后,编译caffe报错:src/caffe/layers/cudnn_conv_layer.cpp:160:57: error: ‘cudnnGetConvolutionBackwardDataAlgorithm’ was not declared in this scope。类似的错误还有error: ‘cudnnGetConvolutionForwardAlgorithm’ was not declared i原创 2021-04-17 17:19:15 · 5658 阅读 · 11 评论 -
tensorRT推理yolov5.trt模型崩溃
tensorRT推理yolov5.trt模型崩溃原创 2022-10-21 14:19:29 · 1377 阅读 · 0 评论 -
TensorRT模型量化出错_ Error Code 1: Cuda Runtime (an illegal memory access was encountered)
在A10显卡上用TensorRT做模型量化时,报如下的错误。[W] [TRT] Calibration Profile is not defined. Running calibration with Profile 0[I] calib data processed : 0/4680batch[E] [TRT] 1: [calibrator.cpp::add::779] Error Code 1: Cuda Runtime (an illegal memory access was encou.原创 2021-10-28 10:02:05 · 5835 阅读 · 0 评论 -
[TRT] TensorRT was linked against cuBLAS/cuBLAS LT 11.5.1 but loaded cuBLAS/cuBLAS LT 11.4.2
在centos7安装cuda11.3,cudnn8.2.1,TensorRT8后,在运行程序时候提示:[TRT] TensorRT was linked against cuBLAS/cuBLAS LT 11.5.1 but loaded cuBLAS/cuBLAS LT 11.4.2这是因为安装的cuda是11.3.0版本的,里面的cublas不是11.5.1,安装11.3.1版本的cuda就好了,我们可以看一下cuda11.3.1的介绍。https://docs.nvidia.com/cu原创 2021-08-03 16:47:02 · 5939 阅读 · 0 评论 -
error while loading shared libraries: libcudart.so.11.0: cannot open shared object file: No such fil
在编译完自己的工程后,运行时提示如下错误:error while loading shared libraries: libcudart.so.11.0: cannot open shared object file: No such file or directory原来在于我软连接的时候用的如下命令:ln -snf libcudart.so.11.3.58 libcudart.so.11ln -snf libcudart.so.11 libcudart.so我做库的软链接的时候,链原创 2021-07-30 12:33:34 · 3781 阅读 · 0 评论 -
TensorRT升级错误:error: invalid new-expression of abstract class type ‘nvinfer1::UpsampleLayerPlugin’
将TensorRT由7升级到8的过程中遇到如下错误plugins/upsample.cpp: In member function ‘virtual nvinfer1::IPluginV2Ext* nvinfer1::UpsampleLayerPlugin::clone() const’:plugins/upsample.cpp:176:53: error: invalid new-expression of abstract class type ‘nvinfer1::UpsampleLayerP原创 2021-07-28 11:25:05 · 880 阅读 · 0 评论 -
TensorRT升级错误,plugins/poly_layer.h:19:21: error: looser throw specifier for ‘virtual int nvinfer1::
在将tensorrt由7升级到8的过程中,遇到了如下错误In file included from plugins/poly_layer.cpp:1:0:plugins/poly_layer.h:19:21: error: looser throw specifier for ‘virtual int nvinfer1::PolyLayerPlugin::getNbOutputs() const’ virtual int getNbOutputs() const override;原创 2021-07-28 10:17:31 · 2244 阅读 · 11 评论 -
GPU,CUDA,cuDNN的理解
我们知道做深度学习离不开GPU,不过一直以来对GPU和CPU的差别,CUDA以及cuDNN都不是很了解,所以找了些资料整理下,希望不仅可以帮助自己理解,也能够帮助到其他人理解。先来讲讲CPU和GPU的关系和差别吧。截图来自资料1(CUDA的官方文档):从上图可以看出GPU(图像处理器,Graphics Processing Unit)和CPU(中央处理器,Central Processing Unit)在设计上的主要差异在于GPU有更多的运算单元(如图中绿色的ALU),而Control和C.转载 2021-07-27 14:31:27 · 324 阅读 · 0 评论 -
centos7安装cuda11.3.1,cudnn8.2.1,TensorRT8
以前用的是TensorRT7,现在想升级到TensorRT8.先简单记录一下安装过程.tensorRT8需要cuda11.3和cudnn8.2.1.1.系统版本首先用cat /etc/redhat-release命令看一下系统版本.[root@localhost tensorRT8_upgrade_20210727]# cat /etc/redhat-releaseCentOS Linux release 7.9.2009 (Core)2.安装cuda首先去英伟达官网下载cuda.原创 2021-07-27 11:28:26 · 2728 阅读 · 4 评论 -
在jetson xavier上利用TensorRT C++部署yolov5_基于tiny-tensorrt
参考:https://github.com/zerollzeng/tiny-tensorrthttps://forums.developer.nvidia.com/t/tiny-tensorrt-a-simple-efficient-easy-to-use-tensorrt-wrapper-for-cnn-sopport-c-and-python/83644原创 2021-07-16 11:08:47 · 1150 阅读 · 0 评论 -
NVIDIA Jetson xavier上用cuda实现图像的resize和padding resize
具体的api接口见https://github.com/cumtchw/cuda_utils下面是调用上述接口实现的一个demo.#include <fstream>#include <iostream>#include <thread>#include <string>#include <vector>#include <cuda_runtime_api.h>#include "opencv2/opencv.hp原创 2021-07-05 11:02:33 · 1307 阅读 · 0 评论 -
CUDA编程入门极简教程
1.前言2006年,NVIDIA公司发布了CUDA,CUDA是建立在NVIDIA的CPUs上的一个通用并行计算平台和编程模型,基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决比较复杂的计算难题。近年来,GPU最成功的一个应用就是深度学习领域,基于GPU的并行计算已经成为训练深度学习模型的标配。目前,最新的CUDA版本为CUDA 9。GPU并不是一个独立运行的计算平台,而需要与CPU协同工作,可以看成是CPU的协处理器,因此当我们在说GPU并行计算时,其实是指的基于CPU+GPU的异构计转载 2021-07-01 14:09:55 · 896 阅读 · 1 评论 -
CUDA入门教程
原文地址:https://godweiyang.com/2021/01/25/cuda-reading/官方文档及书籍英文好、时间充裕的同学可以精读官方文档或者著作。NVIDIA CUDA C++ Programming Guide地址:https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html这是英伟达官方的CUDA编程教程,但是我英文一般,简单过了一遍之后感觉很多细节没讲,有一定的跳跃性,所以我看完还是很朦胧。转载 2021-07-01 10:31:42 · 933 阅读 · 0 评论 -
CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起
掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系。由于作者能力有限,难免有疏漏,恳请读者批评指正。 首先我们要明确:SP(streaming Process),SM(streaming multiprocessor)是硬件(GPU hardware)概念。而thread,block,grid,warp是软件上的(CUDA)概念。1.从硬件看 SP:最基本的处理单元,streamin...转载 2021-06-30 17:35:33 · 7383 阅读 · 0 评论