Quantizing deep convolutional networks for efficient inference: A whitepaper

本文探讨了深度学习模型的量化方法,包括统一仿射量化、对称量化和随机量化。量化设计在推断时能提高速度,特别是在卷积操作中。量化参数选择考虑了量化粒度,通常对权重和激活值使用不同参数。在量化推断中,前向训练量化和BN层量化策略被提出,其中量化激活值和权重的组合方式影响模型性能。对于BN层,作者提出了一种解决量化时振荡的策略。低位网络的量化效果可能较差,但通过调参可以改善。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是对当前量化方法的一个总结。

量化设计

统一仿射量化

它将浮点数量化到(0,Nlevel-1),这里Nlevel是2的bit次方。
在这里插入图片描述
对cnn来说,卷积操作变为:
在这里插入图片描述
这种方法在推断时能够取得更快的速度,因为它的激活值求和以及权重值都是常量。

统一对称量化

在这里插入图片描述

随机量化

在这里插入图片描述
随机量化是将量化器视作一个round操作内的加性噪音,因为很多硬件并不支持随机采样,因此它往往并不在推断时使用。

Note that in expectation,the stochastic quantizer reduces to a pass-through of the floating point weights, with saturation for values outside the range. (没看懂)因此用它来计算梯度效果很好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值