神经网络模型量化(Quantization)

模型部署系列文章目录

##模型优化系列文章

模型量化
模型压缩

提示:根据作者认知及理解加深,博文会迭代更新,目前贴出来的难免有纰漏,希望能够与读者互动改进


前言

提示:这里可以添加本文要记录的大概内容:


提示:以下是本篇文章正文内容,下面案例可供参考

一、模型量化(Quantization)概念

模型量化能够减少模型的大小,进而优化内存的使用,及访问速度。

二、模型量化方法

1. 训练后量化(PTQ/Post Traning Quantization)

1.1 静态量化

1.1.1 per Tensor量化
1.1.2 per layer量化
1.1.3 per channel量化

1.2 动态量化

动态量化是权重被提前量化,而activation在推理过程中动态量化。
应用场景:模型执行时间主要由从内存中加载权重而不是计算矩阵乘法来决定。

2. 量化感知训练(QAT/Quantization Aware Training)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值