Quantization and Training of Neural Networks for Efﬁcient Integer-Arithmetic-Only Inference

最新推荐文章于 2025-11-16 06:15:02 发布

原创

最新推荐文章于 2025-11-16 06:15:02 发布 · 4.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了一种仅使用整数运算的量化方法，用于提高神经网络推理效率。通过特定的量化方案、整数矩阵乘法和训练策略，确保量化后的模型在保持高精度的同时，降低计算延迟。实验表明，该方法尤其适用于MobileNets，在保持良好准确率的同时，优化了设备上的推理速度。

摘要

作者提出了一种只使用整数运算的quantization方式，比起float point运算效率更高。同时提出了一种相应的训练方式来保证quantization之后的准确率。这篇文章的方法提升了accuracy和on-device latency之间的trade off，并且可以在MobileNets上使用。

1 introduction

作者总结了目前有效将庞大的神经网络应用在资源更为有限的移动端设备上的两种主流方式：1.神经全新的体量更小的神经网络，eg：MobileNets，SquueezeNet，ShuffleNet和DenseNet等等；2.将32-bit或64-bit的weights或activations缩小到精度更小的bit单元上，eg：8-bit。

在这篇文章当中，作者主要通过提升了在MobileNets上的accuracy和on-device latency之间的tradeoff来解决这个问题。作者主要采用的方法如下：

1. quantization scheme：将wights和activations全部quantize到8-bit，以及将部分的参数保留在32-bit，例如：bias vector；

2. quantized inference framework：可以在只能进行整数运算的硬件上高效运行，eg：Qualcomm Hexagon；

3.quantized training framework：和quantized inference framework相辅相成，减少quantization带来的accuracy loss；

4.提升了MobileNets在ARM CPUs上的accuracy和ond-device之间的tradeoff。

2 quantized inference

2.1 quantization scheme

quantization scheme就如同是从整数q到实数r的仿射变化：

其中S和Z被称为quantization parameters。并且，同一个weights、activations array中的值使用相同的quantization paramete

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。