离线量化算法和工具
一、离线量化的基础概念
1.1、基本流程
模型: 特指深度神经网络(用于提取图像/视频/语音/文字特征)
量化: 将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。
量化推理的流程(以8bit为例):
1.将该层权重
量化成int8(通过权重的量化参数);
2.将该层输入
激活量化为int8(通过激活的量化参数)
3.int8的激活和权重参与该层的运算
(比如下图的 Conv2D),
4.将该层输出激活反量化
为浮点格式并送入下一层。
1.2、量化的优点和缺点
模型量化优点:
减少内存: 量化的过程就将神经网络参数的32位浮点数表示,转换为更小的表示形式,例如8位整数。例如,从 32 位变为 8位将使模型大小减少4倍,因此量化的一个明显好处是显著减