模型部署系列文章目录
##模型优化系列文章
模型量化
模型压缩
提示:根据作者认知及理解加深,博文会迭代更新,目前贴出来的难免有纰漏,希望能够与读者互动改进
前言
提示:这里可以添加本文要记录的大概内容:
提示:以下是本篇文章正文内容,下面案例可供参考
一、模型量化(Quantization)概念
模型量化能够减少模型的大小,进而优化内存的使用,及访问速度。
二、模型量化方法
1. 训练后量化(PTQ/Post Traning Quantization)
1.1 静态量化
1.1.1 per Tensor量化
1.1.2 per layer量化
1.1.3 per channel量化
1.2 动态量化
动态量化是权重被提前量化,而activation在推理过程中动态量化。
应用场景:模型执行时间主要由从内存中加载权重而不是计算矩阵乘法来决定。