Quantizing deep convolutional networks for efficient inference: A whitepaper

最新推荐文章于 2024-03-05 20:52:08 发布

JachinMa

最新推荐文章于 2024-03-05 20:52:08 发布

阅读量547

点赞数

本文链接：https://blog.youkuaiyun.com/JachinMa/article/details/104172330

版权

本文探讨了深度学习模型的量化方法，包括统一仿射量化、对称量化和随机量化。量化设计在推断时能提高速度，特别是在卷积操作中。量化参数选择考虑了量化粒度，通常对权重和激活值使用不同参数。在量化推断中，前向训练量化和BN层量化策略被提出，其中量化激活值和权重的组合方式影响模型性能。对于BN层，作者提出了一种解决量化时振荡的策略。低位网络的量化效果可能较差，但通过调参可以改善。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是对当前量化方法的一个总结。

量化设计

统一仿射量化

它将浮点数量化到(0,Nlevel-1)，这里Nlevel是2的bit次方。
在这里插入图片描述
对cnn来说，卷积操作变为：

这种方法在推断时能够取得更快的速度，因为它的激活值求和以及权重值都是常量。

统一对称量化

在这里插入图片描述

随机量化

在这里插入图片描述
随机量化是将量化器视作一个round操作内的加性噪音，因为很多硬件并不支持随机采样，因此它往往并不在推断时使用。

Note that in expectation,the stochastic quantizer reduces to a pass-through of the floating point weights, with saturation for values outside the range. (没看懂)因此用它来计算梯度效果很好。