ONNX动态量化后，如果继续使用TensorRT Engine，还需要继续量化吗?

AI大权

于 2025-02-08 15:17:29 发布

阅读量436

点赞数 3

CC 4.0 BY-SA版权

分类专栏：计算机视觉文章标签： ONNX 量化 TensorRT

本文链接：https://blog.youkuaiyun.com/old_power/article/details/145516555

在使用ONNX Runtime进行动态量化（quantize_dynamic）后，生成的ONNX模型已经是量化模型（通常是INT8精度）。如果你计划将这个量化后的ONNX模型转换为TensorRT引擎（TensorRT Engine），是否需要进一步量化取决于以下情况：

1. ONNX动态量化与TensorRT量化的关系

ONNX动态量化：将模型权重和激活值从浮点（FP32）量化为低精度（如INT8），以减少计算量和内存占用。
TensorRT量化：TensorRT也支持INT8量化，但它有自己的量化工具和校准过程。

如果ONNX模型已经通过quantize_dynamic量化，TensorRT可以直接加载这个量化模型，并尝试将其转换为TensorRT引擎。但TensorRT可能会对量化模型进行进一步优化或重新校准。

2. 是否需要继续量化

如果ONNX模型已经量化：通常情况下，TensorRT会直接使用ONNX模型中的量化信息，不需要重新量化。但TensorRT可能会对量化参数进行微调或优化。
如果ONNX模型未量化：则需要使用TensorRT的量化工具（如INT8校准）对模型进行量化。

3.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI大权

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

模型量化5：onnx模型的静态量化和动态量化【使用 ONNXRuntime 内置的量化工具对 ONNX 模型进行静态量化和动态量化】

u013250861的博客

06-22

3476

ONNXRuntime 中的量化是指 ONNX 模型的 8 bit 线性量化。Scale 是一个正实数，用于将浮点数映射到量化空间，计算方法如下：Zero_point 表示量化空间中的零。重要的是，浮点零值在量化空间中可以精确地表示。这是因为许多 CNN 都使用零填充。如果在量化后无法唯一地表示 0，则会导致精度误差。

tensorrt量化

weixin_44533869的博客

02-22

267

隐式量化：精度不可控，存在某一层那个类型快就选择那一层。隐式量化通常指的是在不修改或微调模型权重的情况下，直接对模型进行量化。这种方法依赖于校准数据集来计算量化参数（如缩放因子和零点）。由于没有对模型进行进一步的训练或微调，量化后的模型精度可能不如原始浮点模型。特点无需微调：不需要对模型进行额外的训练或调整。简单快速：由于不需要微调，整个过程相对简单且快速。精度不可控：由于没有通过微调来优化量化参数，精度损失可能会较大，尤其是在某些层中表现尤为明显。校准过程。

参与评论您还未登录，请先登录后发表或查看评论

TensorRT解析ONNX模型过程

whaosoft143ai的博客

02-09

766

本文主要介绍了ONNX和TensorRT的IR信息，并且梳理了从ONNX转换成TensorRT计算图的主要流程。这里主要介绍了ONNX和TensorRT的IR信息，并且梳理了从ONNX转换成TensorRT计算图的主要流程。最近正在梳理TensorRT的ONNX Parser源码，该Parser的核心功能是将模型ONNX IR转换成TensorRT IR。 ONNX基础 whaosoft aiot http://143ai.com

yolov8 Onnx 模型的静态量化和动态量化

.NET 人工智能实践

09-19

4456

yolov8 Onnx 模型的静态量化和动态量化静态量化 def quantize_static 函数定义

模型量化（3）：ONNX 模型的静态量化和动态量化

热门推荐

m0_63642362的博客

05-12

2万+

转自AI Studio，原文链接：模型量化（3）：ONNX 模型的静态量化和动态量化 - 飞桨AI Studio 1. 引入前面介绍了模型量化的基本原理也介绍了如何使用 PaddleSlim 对 Paddle 模型进行模型动态量化和静态量化这次就继续介绍如下量化使用 ONNXRuntime 对 ONNX 模型进行动态量化和静态量化 2. 参考资料官网：onnxruntime.ai 官方量化指南：Quantize ONNX Models Contents

YOLOv8模型ONNX格式INT8量化轻松搞定

金戈鐡馬

11-11

1万+

学会用C++部署YOLOv5与YOLOv8对象检测，实例分割，姿态评估模型，TorchVision框架下支持的Faster-RCNN，RetinaNet对象检测、MaskRCNN实例分割、Deeplabv3 语义分割模型等主流深度学习模型导出ONNX与C++推理部署，轻松解决Torchvision框架下模型训练到部署落地难题。深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段，ONNXRUNTIME支持模型的简化、量化等脚本操作，简单易学，非常实用。

基于python的tensorrt int8 量化yolov5 onnx模型实现

03-26

本教程将详细介绍如何使用Python和TensorRT对YOLOv5 ONNX模型进行INT8量化，以提升其在实际应用中的性能。首先，我们需要了解YOLOv5和ONNX。YOLOv5是一种流行的实时目标检测模型，基于Yolo（You Only Look Once）...

onnx处理和TensorRT量化推理相关代码工具

qq_35435798的博客

08-07

494

1. onnx合并、拆分、修改等操作 2. tensorrt模型量化推理等

yolov8的onnx模型转换成tensorRT的engine模型

01-29

TensorRT通过多种技术如动态形状、INT8量化、层融合等来优化模型，以实现GPU上的高速推理。将ONNX模型转换为TensorRT engine模型的过程，实质上是针对特定硬件平台对模型进行编译和优化的过程。转换流程通常包括...

TensorRT模型量化实践

保持分享欲

09-01

1915

2. onnx导出为tensort engine时可以采用trtexec(注：命令行需加–int8，需要fp16和int8混合精度时，再添加–fp16)，比较简单；trtexec 有提供 --calib=接口进行校正，但需要对中间特征进行cache文件保存，比较麻烦，官方文档也是采用上述方式进行int8量化；1.导出onnx时，显存占用非常大；3.量化过程中发现，即使模型为动态输入，校正数据集使用时也必须与推理时的输入shape[N, C, H, W]完全一致，否则，效果非常非常差，动态模型慎用。

nvidia-bert：在NVIDIADeepLearningExamplesPyTorchLanguageModelingBERT的fork上使用onnxruntime后端

02-18

BERT对于PyTorch 该存储库提供了脚本和配方来训练PyTorch的BERT模型，以实现最先进的准确性，并且已由NVIDIA测试和维护。此示例包含Microsoft进行的修改，以将onnxruntime用作PyTorch的培训后端。性能数字来自原始的NVIDIA存储库，并不反映onnxruntime的使用。目录型号概述 BERT，或来自变压器的双向编码器表示，是一种预训练语言表示的新方法，它可以在各种自然语言处理（NLP）任务中获得最新的结果。该模型基于。 NVIDIA的BERT实施是的优化版本，在Volta V100 GPU上利用混合精度算术和Tensor内核，可以在保持目标精度的同时缩短训练时间。该存储库包含脚本，用于以交互方式启动Docker容器中的数据下载，培训，基准测试和推理例程，以进行预培训和微调，以解决诸如回答问题等任务。本文的原始实现与此版本的BE

【量化测试】

2d3d图像算法 halcon\opencv\c++\pcl\vtk\coluldcompare工具程序员学习者

07-23

614

代码】【量化测试】

【onnx量化】hrnet模型并转rknn3588部署

重剑无锋博客

03-02

1812

onnx量化rknn

ONNX 模型的静态量化和动态量化

红叶谷 wsp_1138886114的博客

11-28

2709

ONNX 模型的静态量化和动态量化

模型量化！ONNX转TensorRT(FP32, FP16, INT8)

qq_43522163的博客

07-10

8790

模型量化！ONNX转TensorRT(FP32, FP16, INT8)

pytorch-＞onnx-＞tf-＞tflite

m0_37591905的博客

10-20

2307

1.pytorch->onnx try: import onnx print('\nStarting ONNX export with onnx %s...' % onnx.__version__) f = opt.weights.replace('.pth', '.onnx').replace('.pt', '.onnx') # filename torch.onnx.export(model, img, f, verbo

TensorRT系列教程-ONNX基础

二爷的博客

12-13

3648

TensorRT 的核心在于对模型算子的优化（合并算子、利用当前 GPU 特性选择特定的核函数等多种策略），通过 TensorRT，能够在 Nvidia 系列 GPU 上获得最好的性能。TensorRT 模型需要在目标 GPU 上以实际运行的方式选择最优的算法和配置（不同的 GPU 的许多特性的不一样，在特定 GPU 上跑一跑，再知道怎样最快）。也因此 TensorRT 得到的模型只能在特定的环境下运行（编译时的 TensorRT 版本、CUDA 版本、GPU 型号等）。

利用TensorRT实现INT8量化感知训练QAT

ZONGXP的博客

10-22

9754

深度学习正在彻底改变行业提供产品和服务的方式。这些服务包括用于计算机视觉的对象检测、分类和分割，以及用于基于语言的应用程序的文本提取、分类和摘要。这些应用程序必须实时运行。大多数模型都采用浮点 32 位算法进行训练，以利用更大的动态范围。然而，在推理时，这些模型可能需要更长的时间来预测结果相比，精度降低推理，造成一些延迟的实时响应，并影响用户体验。在许多情况下，最好使用精度降低的整数或 8 位整数。挑战在于训练后简单地四舍五入权重可能导致较低的模型精度，特别是当权重具有较大的动态范围时。本文简单..

模型推理加速系列|如何用ONNX加速BERT特征抽取-part2(附代码)

ljp1919的专栏

12-08

1688

背景本文紧接之前的一篇文章如何用ONNX加速BERT特征抽取，继续介绍如何用ONNX+ONNXRuntime来加速BERT模型推理。如果看过之前的那篇文章如何用ONNX加速BERT特征抽取的童鞋估计还记得文中留了一个疑问：为何优化过的ONNX模型与未优化的ONNX性能相近？说好的优化，说好地提速呢？与预期不符~ 经热心网友冠达提醒优化的ONNX模型运行时要开启OpenMP（如果没有安装，用apt-get install libgomp1安装OpenMP运行时库即可）。回来一试，果然如此，在此感谢热心网友！

模型转化成tensorrt、openvino这种是量化操作码？