模型压缩笔记1：模型量化_降低精度和量化对模型推理的影响多大-优快云博客

模型压缩

深度神经网络的缺点是计算量太大，研究人员对此的优化有两个方面

常用程度：量化 > 蒸馏 > 剪枝
量化：需要一定的硬件支持

模型量化是将神经网络中的权重和激活值从高精度（通常为32位浮点数）转换为较低精度的数值表示（如16位、8位甚至更低）。这种操作大大减少了模型的存储空间需求和计算复杂度。
量化方法：
- 定点量化（Fixed-Point Quantization）：将浮点数映射到定点数。最常见的方式是将32位浮点数量化为8位整数。
- 动态范围量化（Dynamic Range Quantization）：对权重和激活值进行8位量化，同时仍然使用浮点数进行某些计算，如累加操作。
- 全整数量化（Full Integer Quantization）：不仅对权重和激活值进行整数量化，连计算（如卷积操作）也使用整数运算。
- 半精度浮点量化（Half-Precision Quantization, FP16）：将32位浮点数转换为16位浮点数（FP16）。
量化通常涉及以下步骤：
- 选择量化级别：确定使用的位数，例如8位、16位等。
- 量化方案：选择量化方法，如对称量化、非对称量化等。
- 量化范围：确定量化值的范围，通常通过最大值和最小值来确定。
- 量化映射：将浮点数映射到量化级别上的过程。

32位浮点数（FP32）：
- 特点: 高精度，模型准确率最高，但大小和计算需求也最大。适用于训练和高精度要求的推理任务。
- 应用场景: 适用于需要高精度计算的科学研究和数据分析任务。研究和开发阶段、金融模型、科学计算等对精度要求极高的领域。
16位浮点数（FP16）：
- 特点: 通过减少位数（减少了一半的内存使用）来提高计算速度，特别是在GPU和TPU上的运算。相较于低精度，模型准确率更高，大小和计算需求适中。
- 应用场景: 适用于大多数桌面和服务器端的应用，用于需要平衡精度和性能的任务，如实时视频处理、大规模语音识别等。
8位整数（INT8）：
- 特点: 显著减少模型大小（通常是FP32模型的1/4大小），同时保持接近FP32精度的推理结果。模型大小大幅减小，推理速度加快，但准确率可能会有所下降。
- 应用场景: 适用于移动设备和嵌入式系统，实时应用，如物体检测、语音命令识别等。
4位或更低精度量化（INT4/2）：
- 特点: 更小的模型尺寸和更快的计算速度，但会显著影响精度，通常用于极端资源受限的环境。
- 应用场景: 超低功耗设备、简单任务（如分类问题中的特定类别检测）。