onnx转TensorRT推理自定义插件(op)的方式,Python&C++

首先,无论是python还是C++,我们都要写一个自己的plugin,一般的不支持op网上都有参考的版本,写plugin的参考教程:如何写好一个op
C++实现和使用过程:

  1. 下载TensorRT官网源码, 进入plugin可以看到许多已经定义好的插件可以参考,照着写就行,以ScatterND为例。
  2. 先写好自己的plugin,如名为:myplugin
    注意:此处plugin代码里面不能包含REGISTER_TENSORRT_PLUGIN(MyPluginCreator)代码,不然会导致重复注册的问题。
  3. 在plugin/CMakeLists.txt添加自己大的plugin名称:在这里插入图片描述
  4. 在plugin/InferPlugin.cpp添加注册信息
    在这里插入图片描述
    在这里插入图片描述
  5. 在路径下重新编译源代码
cd TensorRT
mkdir build
cd build
cmake  ..   -DTRT_LIB_DIR=$TRT_RELEASE/lib -DTRT_OUT_DIR=`pwd`/out
make -j${
   
   nproc}
  1. 可以看到build路径下有个out文件夹,里面包括libnvinfer_plugin.so的三个文件。将这三个文件复制到自己的目录下,并删掉原来libnvinfer_plugin.so三个文件。
  2. 在自己的TensorRT推理代码的build model之前进行插件注册,这样就可以使用自定义插件了。
#
### TensorRT 推理引擎使用指南与模型部署要点 TensorRT 是由 NVIDIA 开发的高性能深度学习推理(Inference)优化器和运行时,能够显著提升深度学习模型在边缘设备或服务器上的推理速度。通过其优化技术,如层融合、内存优化、精度量化等,可以实现对主流深度学习框架(如 TensorFlow、PyTorch)导出的 ONNX 模型进行高效部署。 #### 模型换流程 1. **ONNX 模型导出** 从 PyTorch 或其他框架导出模型为 ONNX 格式是使用 TensorRT 的第一步。例如,对于 YOLOv9e 等工业检测模型,可使用官方提供的脚本将 PyTorch 模型导出为 ONNX 文件,以便后续换[^1]。 2. **TensorRT 引擎构建** 使用 `trtexec` 工具或 Python API 构建 TensorRT 引擎。例如,以下命令可将 ONNX 模型换为 FP16 精度的 TensorRT 引擎: ```bash ./trtexec --onnx=unet.onnx --saveEngine=unet.trt --fp16 ``` 此步骤中,TensorRT 将自动执行层融合、内存优化等操作,并根据目标硬件平台选择最佳的内核实现[^3]。 3. **反序列化与推理执行** 在实际部署中,通常使用 PythonC++ 调用 TensorRT 运行时接口加载已生成的 `.trt` 引擎文件并执行推理。以下是一个典型的 Python 示例代码: ```python import tensorrt as trt def trt_infer(): logger = trt.Logger(trt.Logger.INFO) with open('unet.trt', "rb") as f, trt.Runtime(logger) as runtime: engine = runtime.deserialize_cuda_engine(f.read()) for idx in range(engine.num_bindings): name = engine.get_tensor_name(idx) is_input = engine.get_tensor_mode(name) op_type = engine.get_tensor_dtype(name) shape = engine.get_tensor_shape(name) print('input id: ', idx, '\tis input: ', is_input, '\tbinding name: ', name, '\tshape: ', shape, '\ttype: ', op_type) ``` #### 精度控制与性能优化 - **FP16 与 INT8 量化** TensorRT 支持 FP16 和 INT8 两种主要的低精度推理模式,分别适用于不同的硬件平台。FP16 可用于 NVIDIA Jetson 系列设备,而 INT8 则需要在校准数据集上进行量化感知训练或后训练校准(PTQ),以确保精度损失可控。 - **多模型部署与资源管理** 在边缘设备如 Jetson Orin NX 上部署多个模型时,需合理分配 GPU 内存和计算资源。TensorRT 提供了多流(multi-stream)处理机制,支持并发推理任务的调度与优化,从而提高整体吞吐量[^2]。 #### 实际部署案例 在某汽车零部件厂的工业视觉应用中,YOLOv9e 模型经 TensorRT 优化后,在 Jetson Orin NX 平台上的推理延迟从 86ms 降低至 17ms,同时 mAP@0.5 仅下降 0.8%。这一成果表明,TensorRT 在保持较高精度的同时,大幅提升了推理效率,非常适合工业场景下的实时性要求[^1]。 --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值