TensorRT教程5：创建engine的基本步骤

最新推荐文章于 2025-04-12 21:42:00 发布

米斯特龙_ZXL

最新推荐文章于 2025-04-12 21:42:00 发布

阅读量2.8k

点赞数 5

分类专栏： TensorRT教程文章标签：深度学习 tensorflow pytorch caffe 神经网络

本文链接：https://blog.youkuaiyun.com/weixin_41562691/article/details/118277691

版权

TensorRT教程专栏收录该内容

20 篇文章

订阅专栏

本文详细介绍了两种创建TensorRT Engine的方法：从头定义网络和解析模型。每种方法都提供了详细的步骤指导，帮助读者理解如何配置和生成高性能的推理引擎。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创建engine的基本步骤

1、从头定义网络创建engine的9个基本步骤

step1：创建logger

step2：创建builder

step3：创建network

step4：向network中添加网络层

step5：设置并标记输出

step6：创建config并设置最大batchsize和最大工作空间

step7：创建engine

step8：序列化保存engine

step9：释放资源

2、解析模型创建engine的10个基本步骤

step1：创建logger

step2：创建builder

step3：创建network

step4：创建parser

step5：使用parser解析模型填充network对象

step6：标记网络输出

step7：创建config并设置最大batchsize和最大工作空间

step8：创建engine

step9：序列化保存engine

step10：释放资源

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

米斯特龙_ZXL

关注关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

【TensorRT】 ICudaEngine 类深度解析

浩瀚之水的专栏

03-12

347

ICudaEngine 是 TensorRT 推理流程的核心载体，封装了优化后的计算图、内核函数及内存分配策略。

【TensorRT】TensorRT 引擎文件（Engine File）学习笔记

浩瀚之水的专栏

03-12

403

Engine 文件是 TensorRT 对原始模型（如 ONNX）进行优化的最终产物，包含层融合、内核自动调优、内存优化后的执行计划。其核心目标是减少 GPU 计算冗余，提升推理速度。

参与评论您还未登录，请先登录后发表或查看评论

TensorRT创建Engine并推理engine

bobchen1017的博客

04-04

4272

推理YOLOV4人员检测

TensorRT Plugin + Engine 多模型调度：多任务部署的性能优化策略

最新发布

努力分享一些人工智能相关的知识干货！

04-12

760

在真实 AI 工程项目中，往往不仅需要部署一个模型，而是多个任务模型（如识别 + 检测 + 分割 + OCR）协同运行，甚至每个模型都使用了不同的精度（FP16/INT8）、不同的输入维度，甚至包含自定义 Plugin。 > 本文将深入讲解如何在 TensorRT 中实现 **多模型 Engine 并行部署、调度与资源优化**，包括多 Stream 执行、多上下文管理、显存复用策略、Engine 缓存池设计，以及 Triton / Python / C++ 多种部署方式对比，帮助你构建真正工业级可交付的

TensorRT安装与engine生成

不积跬步，无以至千里！

10-24

1938

TensorRT性能优化

3、TensorRT学习笔记之ONNX转engine

NOZhengYuan的博客

04-25

3014

主要讲解了ONNX转TensorRT流程、代码。

TensorRT构建的engine文件用途

qq_43298381的博客

10-23

615

1. 加速推理：通过优化模型的计算图和使用高效的算子实现，TensorRT engine可以显著提高模型推理的速度。2. 降低延迟：对于需要实时响应的应用，如自动驾驶和视频分析，TensorRT engine可以减少推理过程中的延迟。10. 精度校准：TensorRT提供了精度校准工具，可以在保持推理速度的同时，对模型的精度进行优化。总的来说，TensorRT engine是实现深度学习模型在NVIDIA硬件上高效推理的关键组件，它通过一系列的优化技术，使得模型在实际应用中能够快速、准确地运行。

【YOLOv8转TensorRT实战】：关键步骤与注意事项速览

[【YOLOv8转TensorRT实战】：关键步骤与注意事项速览](https://opengraph.githubassets.com/f09503efaee63350d853306d3c3ececdc9c5bf6e11de212bead54be9aad6312e/LinhanDai/yolov9-tensorrt) # 摘要本文介绍了...

TensorRT基本流程概览

xu.hyj

02-28

1504

uint32_tint在RTX中，有两个阶段：1）build engine：将储存了层名和权重的wts文件转换为engine文件。该过程需要IBuilder和INetwork；2）inference：直接将engine读取到IRuntime中，进行推理。此时的网络定义只是一个空壳，没有结构也没有权重参数。ONNX是一种中间件表示协议，规定了网络的结构且储存了参数。现在可以用TensorRT的ONNX Parser接口将ONNX文件中的结构和参数填充到上文定义的空客网络network中。

【实战分享】TensorRT+LLM：大模型推理性能优化初探

fengbeely的博客

07-31

459

TensorRT-LLM可以视为TensorRT和FastTransformer的结合体，旨为大模型推理加速而生。

TensorRT案例研究：行业领导者如何部署加速模型

![TensorRT案例研究：行业领导者如何...本文首先介绍了TensorRT的市场定位和概述，阐述了深度学习模型优化的必要性和TensorRT的技术原理。其次，文章详细介绍了TensorRT的实践部署流程，包括环境准备、模型转换优化及部

tensorRT踩坑日常之engine推理

chaocainiao的博客

04-21

5795

tensorRT踩坑日常之engine推理再进行tensorRT进行推理之前，需要将训练好的模型转onnx再进行序列化生成engine，然后反序列化context推理此文章是进行序列化生成engine和推理的，不知道如何生成engine和onnx的小伙伴可以参考另一篇博客 https://blog.youkuaiyun.com/chaocainiao/article/details/124197430?spm=1001.2014.3001.5502 废话不多说，开始进入正题，上代码 # 初始化(创建引擎，为输入

python使用TensorRT引擎

Major_S的博客

10-18

1412

python使用TensorRT引擎。

TensorRT学习（3）：加载engine文件进行推理

农夫的博客

03-21

6014

1. 加载pointNet引擎文件并创建引擎对象 // 加载引擎文件 std::string engine_name = "./pointnet.engine"; std::ifstream file(engine_name, std::ios::binary); if (!file.good()) std::cerr << "文件无法打开，请确定文件是否可用！" << std::endl; size_t size = 0; file.seekg(0, file.end

tensorRT部署之代码实现 onnx转engine/trt模型

yohnyang的博客

06-22

2771

tensorRT部署之代码实现 onnx转engine/trt模型

TensorRT 推理 (onnx-＞engine)

红叶谷 wsp_1138886114的博客

11-13

8155

TensorRT 推理 (onnx->engine)【Win10+cuda11.0+cudnn8.2.1+TensorRT8.2.5.1】

TensorRt（2）快速入门介绍

热爱生活，忠于自己

11-27

2253

TensorRt的安装，不同环境下的安装不做介绍，注意不同版本对系统和软件版本的要求。先介绍tensorrt的常规开发周期流程：这个部分不属于TensorRt的内容范畴。通常训练网络模型使用高性能的服务器，使用的框架常见的有Tensorflow、pytorch、caffe、mxnet等。之后被TendorRt加载或转成换能够加载的模型格式。加载第三方模型（目前仅支持onnx、caffe、uff）进行模型编译并从多个方面优化，生成序列化的engine模型，以plan形式保存。

记录两种创建tensorrt engine的方式，原生API+基于onnxparser。以AlexNet为例。

weixin_37753389的博客

05-07

1101

c++ tensorrt 从onnx创建engine

04-01

TensorRT是一种用于高性能深度学习推理的库，它可以从ONNX模型创建引擎。以下是使用TensorRT从ONNX模型创建引擎的步骤： 1. 安装TensorRT：首先需要安装TensorRT库。可以在NVIDIA官网上下载TensorRT安装包，并按照指示进行安装。 2. 转换ONNX模型：使用TensorRT的`trtexec`工具将ONNX模型转换为TensorRT引擎。可以使用以下命令： ``` trtexec --onnx=<path_to_onnx_model> --saveEngine=<path_to_save_engine> ``` 这将使用默认参数生成一个TensorRT引擎，并将其保存到指定路径。 3. 加载引擎：使用TensorRT的C++ API加载生成的引擎。可以使用以下代码： ```c++ #include <iostream> #include <fstream> #include "NvInfer.h" #include "NvOnnxParser.h" int main() { // Load engine from file std::ifstream engineFile("path/to/engine"); engineFile.seekg(0, std::ios::end); const size_t fileSize = engineFile.tellg(); engineFile.seekg(0, std::ios::beg); std::vector<char> engineData(fileSize); engineFile.read(engineData.data(), fileSize); nvinfer1::IRuntime* runtime = nvinfer1::createInferRuntime(...); nvinfer1::ICudaEngine* engine = runtime->deserializeCudaEngine(engineData.data(), fileSize, nullptr); ... } ``` 这将从文件中加载引擎数据，并使用TensorRT API创建一个运行时和一个CUDA引擎对象。 4. 运行推理：使用引擎对象运行推理。可以使用以下代码： ```c++ nvinfer1::IExecutionContext* context = engine->createExecutionContext(); // Prepare input and output buffers void* inputBuffer = ...; // Allocate input buffer void* outputBuffer = ...; // Allocate output buffer ... // Run inference const int batchSize = 1; context->setBindingDimensions(inputIndex, nvinfer1::Dims4(batchSize, inputChannels, inputHeight, inputWidth)); context->setBindingDimensions(outputIndex, nvinfer1::Dims4(batchSize, outputChannels, outputHeight, outputWidth)); context->execute(batchSize, bindings); ``` 这将使用引擎对象创建一个执行上下文，并准备输入和输出缓冲区。然后，可以指定批量大小并运行推理。