TensorRT PTQ量化Calibrator介绍

1、使用校准(Calibrator)的PTQ (Post-Training Quantization)

注意:本节描述了已弃用的API。建议使用显式量化。
校准仅适用于INT8量化


在PTQ量化中,TensorRT会为网络中的每个张量计算一个缩放值。这个过程称为校准,需要你提供具有代表性的输入数据,TensorRT在这些数据上运行网络以收集每个激活张量的统计信息。

所需的输入数据量取决于具体应用,但实验表明,大约500张图像足以校准ImageNet分类网络。

给定激活张量的统计信息后,确定最佳缩放值并不是一门精确的科学——它需要在量化表示中的两种误差源之间进行平衡:离散化误差(随着每个量化值表示的范围增大而增加)和截断误差(将值限制在可表示范围内)。因此,TensorRT提供了多种校准器,它们以不同的方式计算缩放值。较旧的校准器还会在GPU上进行层融合,以在校准前优化掉不需要的张量。这在DLA(深度学习加速器)上可能会出现问题,因为融合模式可能不同,并且可以使用kCALIBRATE_BEFORE_FUSION量化标志来覆盖。

校准批次大小也会影响IInt8EntropyCalibrator2IInt8EntropyCalibrator的截断误差。例如,使用多个小批次的校准数据进行校准可能会导致直方图分辨率降低和缩放值不准确。对于每个校准步骤,TensorRT会更新每个激活张量的直方图分布。如果遇到激活张量中的值大于当前直方图最大值,直方图范围会以2的幂次增加以容纳新的最大值。这种方法在大多数情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值