模型压缩 --学习记录1 一、模型压缩的定义 二 、模型量化技术 2.1、线性量化 - 对称线性量化 对称线性量化的过程 Step 1:确定量化范围(range) Step 2:计算缩放因子(scale) Step 3:执行量化 对称线性量化存在的问题 2.2、线性量化 - 非对称线性量化 非对称线性量化的过程 Step 1:统计数据范围 Step 2:计算缩放因子和零点 Step 3:浮点数量化为整数 总结 2.3、非线性量化 2.4、动态量化(大语言模型经常使用) 动态量化 vs 静态量化 2.5、量化粒度 量化粒度的选择 一、模型压缩的定义 定义:让模型变得更小、更快、但是精度尽可能不下降。 模型压缩的常用方法: 量化 稀疏 蒸馏 NAS 低秩分解 二 、模型量化技术 在神经网络中,量化是一种将模型参数(权重/激活)从高精度浮点数转换为低精度整数表示的技术。 2.1、线性量化 - 对称线性量化 线性量化:通过一个线性公式,将高精度的浮点数值映射到低精度的整数值中。其转换公式为: q =