使用tensorrt自带的trtexec将onnx模型转换为trt模型

最新推荐文章于 2025-04-27 07:30:00 发布

lgh15897723511

最新推荐文章于 2025-04-27 07:30:00 发布

阅读量2k

点赞数

文章标签： linux ubuntu 运维

本文链接：https://blog.youkuaiyun.com/lgh15897723511/article/details/127847344

版权

1.在官网下载好tensorrt，进入bin目录。（注意：在ubuntu上需要加上sudo,使用管理员权限。）

运行如下模型转换命令：

sudo ./trtexec --onnx=model_res512672_best.onnx --saveEngine=model_res512672_best.trt --workspace=1024 --iterations=1 --verbose

--workspace = 1024 以兆字节为单位设置工作区大小（默认 = 16）

--iterations = 1 运行至少 N 次推理迭代（默认 = 10）

--verbose 使用详细日志记录 (默认 = false)

（注意：设置--workspace时需要先查看系统可用的内存。）

结果1：如果报错。需要尝试在/tensorrt/bin 目录下添加几个动态链接库。

例如在windows上：

加上：myelin64_1.dll；nvinfer.dll；nvinfer_plugin.dll；nvonnxparser.dll；nvparsers.dll。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lgh15897723511

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Jetson系列TensorRT .onnx转.trt/.engine

qq_41847894的博客

04-12

4011

一、环境配置 Jetson系列加速器如Nano、Xavier在刷机之后是自动安装了TensorRT的，通过如下命令可以检查是否安装成功： dpkg -l | grep TensorRT 成功显示：但是可能一开始在conda环境里加载不出来，是因为没有配置好环境。首先找到tensor.so的位置： sudo find / -iname "tensorrt.so" 我的位置在这里：然后进入自己创建的conda用户环境里（/usr/local/archiconda3/envs

深度学习的模型转换（.pt转换为.engine）

m0_49586319的博客

04-26

1484

TensorRT的INT8量化，4060Ti显卡有200-1000帧率

1 条评论您还未登录，请先登录后发表或查看评论

onnx转trt方法

weixin_67615387的博客

01-31

3186

onnx转TensorRT

TensorRT入门：ONNX转换为TensorRT引擎文件

最新发布

保持分享欲

04-27

1071

trtexec 工具是 TensorRT 的命令行工具，位于 TensorRT 的安装目录中，随 TensorRT 的安装就可以直接使用。trtexec，不仅打包了几乎所有 TensorRT 脚本可以完成的工作，并且扩展丰富的推理性能测试的功能。通常我们使用 trtexec 完成下面三个方面的工作，一是由 Onnx 模型文件生成 TensorRT 推理引擎，并且可以序列化为 .plan 文件。二是可以查看 Onnx 或者 .plan 文件的网络的逐层信息。

使用trtexec工具多batch推理tensorrt模型(trt模型)

Thomas_Cai的记忆殿堂

07-06

2880

/XXX/TensorRT-8.2.5.1/bin 注意：得到：

TensorRT8——ONNX转trt

xiaohu的博客

04-28

5850

CUDA安装首先需要确保正确安装CUDA，安装后通过nvcc -V验证是否安装。下载TensorRT https://developer.nvidia.com/nvidia-tensorrt-8x-download

Windows环境使用TensorRT工具trtexec将ONNX转换为engine(trt)文件

P_Leung的技术博客

09-28

8075

当前环境软件版本 CUDA 10.2 cudnn 7.6.5 TensorRT 7.0.0.11 根据当前环境编译trtexec 源码在TensorRT里面，路径TensorRT-7.0.0.11\samples\trtexec 1. 使用Visual Studio打开项目打开trtexec.sln文件 2. 给项目配置正确的头文件和静态库路径头文件右键解决方案属性=> C/C++ => 常规 => 附加包含目录添加以下路径(根据自身情况

使用trtexec将onnx生成trt

qq_37408085的博客

11-11

4469

#生成静态batchsize的engine ./trtexec --onnx=<onnx_file> \ --explicitBatch \ --saveEngine=<tensorRT_engine_file> \ --workspace=<size_in_megabytes> \ --fp16 #生成动态batchsize的engi.

tensorRT踩坑日常之训练模型转ONNX转engine

chaocainiao的博客

04-15

1万+

tensorRT踩坑日常之训练模型转ONNX转engine tensorRT是用来干嘛的在这里就不多介绍了在使用tensorRT提速之前需要先训练模型在将训练好的模型转ONNX再转engine 一、将训练好的模型转ONNX这里就提供将torch转ONNX，其余的网上还是有很多教程的 import torch import torch.nn import onnx model = torch.load('best.pt') model.eval() input_names = ['input'] outp

转onnx模型学习汇总及TensorRT部署

qq_35435798的博客

08-06

1079

转onnx模型和TensorRT部署。涉及自动驾驶相关开源算法（bevdepth、MatrixVT、BEVDet poolv2）。有需要可深入交流

从Pytorch到TensorRT的转换和推理

xu.hyj

03-12

1991

在本文中我们使用pytorch自带的工具将pt模型转为onnx模型，并使用onnxruntime推理引擎进行推理。为了保证模型转换过程中精度，进行了精度对齐的小实验，证明转换前后的误差在1e-6这个级别，是可以忍受的。后续继续将onnx转为tensorRT进行部署，实现从pt–onnx–tensorRT这个部署路线。

pytorch 将onnx模型转换为trt TensorRT模型

03-20

适用于TensorRT8.0版本及以上使用步骤 1、chmod 添加文件执行权限 2、将onnx路径修改为自己的onnx模型路径 3、运行py问价

yolov3-tiny-onnx-TensorRT:将您的yolov3-tiny模型转换为trt模型

05-12

yolov3-tiny2onnx2trt 将您的yolov3-tiny模型转换为trt模型设备：nvidia jetson tx2 jetpack版本：jetpack4.2： ubuntu18.04 tensorrt5.0.6.3 cuda10.0 cudnn7.3.1 其他： python=2.7 numpy=1.16.1 onnx=1.4.1 (important) pycuda=2019.1.1 Pillow=6.1.0 wget=3.2 自定义设置 data_processing.py: line14: LABEL_FILE_PATH = '/home/nvidia/yolov3-tiny2onnx2trt/coco_labels.txt' line19: CATEGORY_NUM = 80 yolov3_to_onnx.py: line778: img_siz

【保姆级教程附代码】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程

weixin_44212848的博客

04-03

2083

那么恭喜你的 .onnx 大概率是可以转化到 .plan 的！当然这里也有些坑，比如明明是显存不够错误，但日志里完全没提 oom，而是说节点问题。。。

onnx 模型导出为 trt 模型

先说一下，就简单地写点儿氵文，不是博客，只是我的笔记本/工具书

07-18

5397

onnx -> trt

onnx模型转为trt模型

weixin_42156097的博客

10-28

2125

想要加速推理速度，一定要用半精度/混合精度，即（-d 16)

TensorRT - 使用trtexec工具转换模型、运行模型、测试网络性能

热门推荐

HW140701的博客

09-21

1万+

1 转换模型 1.1 Caffe模型转换为TensorRT模型将Caffe模型转换为TensorRT模型，启动所有精度以达到最佳性能 trtexec --deploy=mnist.prototex --model=mnist.caffe --saveEngine=mnist.trt --best 将Caffe模型转换为TensorRT模型，启动所有精度以达到最佳性能，并跳过推理性能测试 trtexec --deploy=mnist.prototex --model=mnist.caffe --s

ONNX模型转换为TensorRT模型（trtexec 工具）

weixin_44741151的博客

11-24

3968

将 ONNX 模型转换为 TensorRT 格式（即.trtmodel文件），可以使用 TensorRT 提供的工具或 API。当然，前提是你得搭建了 TensorRT环境。这边不说如何安装，直接用。

trt 使用trtexec工具ONNX转engine

4月16！的博客

04-15

5221

首先说明，我用的模型是一个动态模型，内部需要设置 --minShapes=input:1x1x80x92x60 --optShapes=input:2x1x80x92x60 --maxShapes=input:10x1x80x92x60 min batch=1 opt batch =2 max batch =10 其次，我用的int8量化；量化需要设置calib文件夹； D:\Download\TensorRT-8.2.1.8.Windows10.x86_64.cuda-11.4....

tensorrt部署yolov5 python

03-10

<think>好的，用户想了解如何使用TensorRT在Python中部署YOLOv5模型。首先，我需要回顾一下TensorRT和YOLOv5的基本概念。TensorRT是NVIDIA的深度学习推理优化器，能提升模型在GPU上的推理速度。YOLOv5则是目标检测模型，部署时需要考虑模型转换、预处理、推理和后处理步骤。用户提供的引用中有几个相关的资料。引用[3]提到了使用Python部署的方法，包括将YOLOv5的PT模型导出为ONNX，然后转换为TensorRT引擎。引用[4]提到Python部署相对于C++的优势，特别是在处理视频流或摄像头输入时。引用[5]虽然主要讲C++部署，但路径设置可能对Python环境也有参考价值。接下来需要整理步骤。首先，导出模型为ONNX格式，这一步可能需要使用YOLOv5自带的export.py脚本。然后，用TensorRT的trtexec工具将ONNX转换为TensorRT引擎。之后，编写Python代码进行预处理、推理和后处理，包括非极大值抑制（NMS）和绘制检测框。需要注意的细节包括：确保CUDA、cuDNN和TensorRT版本兼容；预处理时调整图像尺寸和归一化；推理时正确加载引擎文件；后处理时解析输出并应用NMS。此外，用户可能关心如何处理视频或实时摄像头输入，这部分可能需要用到OpenCV的VideoCapture。可能的问题点包括模型转换时的错误，比如不支持的算子，需要检查ONNX导出是否正确。另外，Python和C++在部署时的差异，比如Python可能需要更简便的接口，但性能可能稍逊于C++。不过用户明确要求Python实现，所以应侧重Python相关的库和代码示例。最后，根据引用资料，特别是引用[3]和[4]，需要指导用户具体步骤，并确保代码示例正确，比如使用PyCUDA处理内存拷贝，以及使用OpenCV进行图像处理。同时，提供相关的问题供用户进一步学习，比如性能优化和多模型推理。</think>### 使用TensorRT部署YOLOv5的Python实现步骤 #### 1. **环境准备** - 安装CUDA、cuDNN和TensorRT，确保版本兼容（例如CUDA 11.x + TensorRT 8.x）[^5]。 - 安装Python依赖库： ```bash pip install numpy opencv-python pycuda tensorrt onnx ``` #### 2. **模型转换** - **导出YOLOv5为ONNX格式**：使用YOLOv5官方`export.py`脚本： ```bash python export.py --weights yolov5s.pt --include onnx ``` 生成`yolov5s.onnx`文件[^3]。 - **转换为TensorRT引擎**：使用TensorRT的`trtexec`工具： ```bash trtexec --onnx=yolov5s.onnx --saveEngine=yolov5s.trt --fp16 ``` 生成`yolov5s.trt`引擎文件[^3]。 #### 3. **Python推理代码实现** ```python import tensorrt as trt import pycuda.driver as cuda import pycuda.autoinit import cv2 import numpy as np # 加载TensorRT引擎 TRT_LOGGER = trt.Logger(trt.Logger.WARNING) with open("yolov5s.trt", "rb") as f, trt.Runtime(TRT_LOGGER) as runtime: engine = runtime.deserialize_cuda_engine(f.read()) # 创建执行上下文 context = engine.create_execution_context() # 分配输入/输出内存 inputs, outputs, bindings = [], [], [] stream = cuda.Stream() for binding in engine: size = trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size dtype = trt.nptype(engine.get_binding_dtype(binding)) host_mem = cuda.pagelocked_empty(size, dtype) device_mem = cuda.mem_alloc(host_mem.nbytes) bindings.append(int(device_mem)) if engine.binding_is_input(binding): inputs.append({'host': host_mem, 'device': device_mem}) else: outputs.append({'host': host_mem, 'device': device_mem}) # 图像预处理 def preprocess(image): img = cv2.resize(image, (640, 640)) img = img.transpose((2, 0, 1)) # HWC -> CHW img = np.ascontiguousarray(img).astype(np.float32) / 255.0 return img # 推理函数 def inference(image): np.copyto(inputs[0]['host'], image.ravel()) cuda.memcpy_htod_async(inputs[0]['device'], inputs[0]['host'], stream) context.execute_async_v2(bindings=bindings, stream_handle=stream.handle) cuda.memcpy_dtoh_async(outputs[0]['host'], outputs[0]['device'], stream) stream.synchronize() return outputs[0]['host'] # 后处理（NMS和绘制结果） def postprocess(output, image): # 解析输出并应用NMS（需根据模型输出结构实现） # 示例：output shape为(1, 25200, 85) boxes = ... # 解码边界框 scores = ... # 置信度过滤 indices = cv2.dnn.NMSBoxes(boxes, scores, 0.5, 0.5) # 绘制检测框 for i in indices: x1, y1, x2, y2 = boxes[i] cv2.rectangle(image, (x1, y1), (x2, y2), (0,255,0), 2) return image # 测试流程 img = cv2.imread("test.jpg") preprocessed = preprocess(img) output = inference(preprocessed) result = postprocess(output, img.copy()) cv2.imwrite("result.jpg", result) ``` #### 4. **关键说明** - **预处理**：需匹配YOLOv5输入尺寸（默认640x640）和归一化[^3]。 - **后处理**：需根据模型输出格式解析坐标和类别，并应用NMS过滤冗余框[^1]。 - **性能优化**：使用FP16精度可提升推理速度，但需GPU支持。 --- ###