onnx转TensorRT推理自定义插件（op）的方式，Python&C++

最新推荐文章于 2023-09-09 15:53:41 发布

原创

最新推荐文章于 2023-09-09 15:53:41 发布 · 3.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python #c++ #深度学习

首先，无论是python还是C++，我们都要写一个自己的plugin，一般的不支持op网上都有参考的版本，写plugin的参考教程：如何写好一个op
C++实现和使用过程：

下载TensorRT官网源码，进入plugin可以看到许多已经定义好的插件可以参考，照着写就行，以ScatterND为例。
先写好自己的plugin，如名为：myplugin
注意：此处plugin代码里面不能包含REGISTER_TENSORRT_PLUGIN(MyPluginCreator)代码，不然会导致重复注册的问题。
在plugin/CMakeLists.txt添加自己大的plugin名称：
在plugin/InferPlugin.cpp添加注册信息
在路径下重新编译源代码

cd TensorRT
mkdir build
cd build
cmake  ..   -DTRT_LIB_DIR=$TRT_RELEASE/lib -DTRT_OUT_DIR=`pwd`/out
make -j${
   
   nproc}

可以看到build路径下有个out文件夹，里面包括libnvinfer_plugin.so的三个文件。将这三个文件复制到自己的目录下，并删掉原来libnvinfer_plugin.so三个文件。
在自己的TensorRT推理代码的build model之前进行插件注册，这样就可以使用自定义插件了。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ehrich wen

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TensorRT之入门指南

candy的博客

05-20

290

TensorRT 是 NVIDIA 开发的高性能深度学习推理优化器，专为 GPU 加速推理而设计。本文将全面介绍 TensorRT 的 Python API，通过丰富的示例代码展示如何在实际项目中使用 TensorRT 优化深度学习模型的推理性能。

实现TensorRT自定义插件(plugin)自由！

qq_33287871的博客

05-22

3805

@TOC 本文主要讲解： TensorRT自定义插件的使用方式如何添加自己的自定义算子前言随着tensorRT的不断发展(v5->v6->v7)，TensorRT的插件的使用方式也在不断更新。插件接口也在不断地变化，由v5版本的IPluginV2Ext，到v6版本的IPluginV2IOExt和IPluginV2DynamicExt。未来不知道会不会出来新的API，不过这也不是咱要考虑的问题，因为TensorRT的后兼容性做的很好，根本不用担心你写的旧版本插件在新版本上无法运行。目前的p

2 条评论您还未登录，请先登录后发表或查看评论

tensorrt 自定义插件层的编写编译及使用

qq_35224427的博客

02-11

641

tensorrt，模型部署推理

9.TensorRT中文版开发教程-----TensorRT中的自定义层(Extending TensorRT With Custom Layers)

专注于人工智能领域的小何尚

05-08

8246

TensorRT中的自定义层点击此处加入NVIDIA开发者计划 NVIDIA TensorRT 支持多种类型的层，其功能不断扩展；但是，在某些情况下，支持的层不能满足模型的特定需求。您可以通过实现自定义层（通常称为插件）来扩展 TensorRT。 9.1. Adding Custom Layers Using The C++ API 您可以通过从 TensorRT 的插件基类之一派生来实现自定义层。

ONNX-Tensorrt如何注册自己的Op

The space of Shining

07-06

4102

前言在NVIDIA开源项目中，onnx-tensorrt，版本是v5.0，目前TX2的18.04系统Cuda10，Tensorrt5.0.26目前只支持到这个版本。我们可以看到tensorrt是如何将ONNX的模型转化为tensorrt支持的序列化模型。源码中我们可以看到有4个Op:Split,FancyActivation,InstanceNormalization,ResizeNeares...

TensorRT自定义插件(plugin)开发（详细）

Bluebelfast的专栏

05-31

5051

tensorRT插件开发详细文档

TensorRT动态卷积自定义op（多输入卷积/权重动态卷积）

Fenplan的博客

01-06

2403

随着算法模型的不断演变，常规的模型结构已经不能满足算法人员的需求，于是衍生出形色各异的op，比如动态卷积，即前向传播过程中，weight也会随着输入的不同而发生改变。声明：所谓动态卷积指在前向传播过程中weight发生变化此处的动态卷积只是笔者对该op的一种称呼 TensorRT通过ConvMultiInput来实现这种卷积（多输入卷积），但是只支持INT8显式量化目前发现只在TensorRT中存在动态的问题，其他如onnx、OpenVINO不存在该问题动态卷积大概长下面这个样子。其中inpu

TensorRT:自定义插件学习与实践 002:实现GELU

ResumeProject的博客

05-02

1151

【代码】TensorRT:自定义插件学习与实践 002:实现GELU。

TensorRT5.1.5.0 实践 onnx-TensorRT的自定义op

Nonentity never give up ? neuer : loser

08-13

4940

以pytorch转TensorRT为例，进行自定义op的pipeline的整理。文章目录pytoch 转 onnx 过程中扩展自定义oponnx 转 tensorRT 过程中扩展自定义op流程细节学习对自定义op：InstanceNormalization的详解InstanceNormalizationPlugin.hppInstanceNormalizationPlugin.cppbuilti...

基于python实现onnx转TensorRT自定义op

Fenplan的博客

09-15

913

TensorRT源码上提供了一些python的samples，但是说好的提供onnx_packnet这个sample是onnx2trt自定义op的示例，但却没有写完整，不熟悉的人很难看懂。但其实Python版本的onnx2trt自定义op很简单，过程如下：找到一个需要自定义op的C++插件（或者自己写）如：grid_sampler 使用cmake将上述grid_sampler相关文件生成C++库文件libtensorrtplugins.so 在Python文件的最开头加上一句：ctypes.CDLL("

TensorRT-7.x自定义插件详细指南

老潘的博客

01-12

3015

小博主拍了拍你的脑袋发了一个神秘链接：oldpan.me 本系列为新TensorRT的第一篇，为什么叫新，因为之前已经写了两篇关于TensorRT的文章，是关于TensorRT-5.0版本的。好久没写关于TensorRT的文章了，所幸就以新来开头吧~ 接下来将要讲解的TensorRT，将会是基于7.0版本。 7版本开头的TensorRT变化还是挺大的，增加了很多新特性，但是TensorRT的核心运作方式还是没有什么变化的，关于TensorRT的介绍可以看之前写的这两篇：利用TensorRT对深度学习进行

ONNX

qq_35608277的博客

07-19

7081

简介 Open Neural Network Exchange（ONNX，开放神经网络交换）格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移（一般用于中间部署阶段）。 ONNX的规范及代码主要由微软，亚马逊，Facebook 和 IBM 等公司共同开发，以开放源代码的方式托管在Github上。目前官方支持加载ONNX模型并进行推理的深度学习框架有： Caffe2, PyT...

ONNX模型及自定义plugin的动态链接库转TensorRT模型推理

ywfwyht的博客

06-03

1232

ONNX是一种用于表示机器学习模型的格式，而TensorRT是一个高性能的推理引擎，用于在NVIDIA GPU上进行推理。自定义plugin则是指在TensorRT中自定义一些操作（如卷积、ReLU等），以提高模型推理效率。首先，需要定义一个继承自ITensorRT接口的plugin类，实现其对应的虚函数，例如前向计算函数和反向传播函数等。在实现以上步骤时，需要注意TensorRT的版本和系统配置。使用TensorRT的Python API或C++ API，将ONNX模型转换为TensorRT引擎。

【ONNX】ONNX结构分析

最新发布

06-25

### TensorRT 推理引擎使用指南与模型部署要点 TensorRT 是由 NVIDIA 开发的高性能深度学习推理（Inference）优化器和运行时，能够显著提升深度学习模型在边缘设备或服务器上的推理速度。通过其优化技术，如层融合、内存优化、精度量化等，可以实现对主流深度学习框架（如 TensorFlow、PyTorch）导出的 ONNX 模型进行高效部署。 #### 模型转换流程 1. **ONNX 模型导出** 从 PyTorch 或其他框架导出模型为 ONNX 格式是使用 TensorRT 的第一步。例如，对于 YOLOv9e 等工业检测模型，可使用官方提供的脚本将 PyTorch 模型导出为 ONNX 文件，以便后续转换[^1]。 2. **TensorRT 引擎构建** 使用 `trtexec` 工具或 Python API 构建 TensorRT 引擎。例如，以下命令可将 ONNX 模型转换为 FP16 精度的 TensorRT 引擎： ```bash ./trtexec --onnx=unet.onnx --saveEngine=unet.trt --fp16 ``` 此步骤中，TensorRT 将自动执行层融合、内存优化等操作，并根据目标硬件平台选择最佳的内核实现[^3]。 3. **反序列化与推理执行** 在实际部署中，通常使用 Python 或 C++ 调用 TensorRT 运行时接口加载已生成的 `.trt` 引擎文件并执行推理。以下是一个典型的 Python 示例代码： ```python import tensorrt as trt def trt_infer(): logger = trt.Logger(trt.Logger.INFO) with open('unet.trt', "rb") as f, trt.Runtime(logger) as runtime: engine = runtime.deserialize_cuda_engine(f.read()) for idx in range(engine.num_bindings): name = engine.get_tensor_name(idx) is_input = engine.get_tensor_mode(name) op_type = engine.get_tensor_dtype(name) shape = engine.get_tensor_shape(name) print('input id: ', idx, '\tis input: ', is_input, '\tbinding name: ', name, '\tshape: ', shape, '\ttype: ', op_type) ``` #### 精度控制与性能优化 - **FP16 与 INT8 量化** TensorRT 支持 FP16 和 INT8 两种主要的低精度推理模式，分别适用于不同的硬件平台。FP16 可用于 NVIDIA Jetson 系列设备，而 INT8 则需要在校准数据集上进行量化感知训练或后训练校准（PTQ），以确保精度损失可控。 - **多模型部署与资源管理** 在边缘设备如 Jetson Orin NX 上部署多个模型时，需合理分配 GPU 内存和计算资源。TensorRT 提供了多流（multi-stream）处理机制，支持并发推理任务的调度与优化，从而提高整体吞吐量[^2]。 #### 实际部署案例在某汽车零部件厂的工业视觉应用中，YOLOv9e 模型经 TensorRT 优化后，在 Jetson Orin NX 平台上的推理延迟从 86ms 降低至 17ms，同时 mAP@0.5 仅下降 0.8%。这一成果表明，TensorRT 在保持较高精度的同时，大幅提升了推理效率，非常适合工业场景下的实时性要求[^1]。 --- ###