神经网络定点量化

smartcat2010

已于 2024-06-01 21:07:35 修改

阅读量2.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：算法工程文章标签：神经网络深度学习并行计算

于 2022-02-13 21:04:50 首次发布

本文链接：https://blog.youkuaiyun.com/smartcat2010/article/details/122913849

算法工程专栏收录该内容

27 篇文章

订阅专栏

本文探讨了如何通过量化技术，如INT8量化，减少移动端计算、内存和功耗。介绍了PyTorch的动态与静态量化区别，以及Quantization-Aware Training背后原理。重点讲解了量化参数S和Z在模型权重和激活上的使用，以及Post-Training Quantization在不同场景下的实践和效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的：

1. 加速计算（特别是移动端上）

2. 减少内存/显存占用（特别是移动端上）

3. 减少功耗（读取内存和计算都会耗电）

把某个tensor或者某个channel的这组float32, 用int8来表示，就是量化。

这组float32的上下界，可以取他们的min和max，也可以moving average，也可以去中间99%的那部分。。。越界的就用量化为0或者255。

公式：

(r实数-0) / (q整数-Z整数）= S = (r实数max-r实数min) / (q整数max-q整数min) = (r实数max-r实数min) / 255

S为缩放稀疏，Z为"Zero-Point"，其实Z就是真实浮点值0映射到整数时对应的值，无论是在图像中还是NLP中都会有用0做padding值来补全的，映射到整数后，也应该有这样一个值的存在，这个值就是Z。在这里S和Z可以称为量化参数，对于每个权重矩阵和每个激活数组都有一对这样的值。

Linear层和卷积的量化：

神经网络量化入门--基本原理 - 知乎 (zhihu.com)

累加用的是INT32:

Arithmetic in the quantized model is done using vectorized INT8 instructions. Accumulation is typically done with INT16 or INT32 to avoid overflow. This higher precision value is scaled back to INT8 if the next layer is quantized or converted to FP32 for output.

1. PyTorch的Dynamic Quantization

用户指定量化哪些层；这些层的权重全被量化成int8，activation在输入时量化成int8，计算完成后再反量化成float32; 每个batch的每层都要量化一次（所以叫做Dynamic量化）；