LSQ+: Improving low-bit quantization through learnable offsets and better initialization

JachinMa

于 2020-05-07 17:33:09 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/JachinMa/article/details/105975948

版权

LSQ+是针对LSQ（Learned Step-size Quantization）的改进，通过学习调整量化间隔和引入可学习参数β优化激活值量化。在处理如Swish、H-Swish等负值非零的激活函数时，LSQ+采用可学习的β避免精度损失，同时在权重量化中保持对称性。此外，LSQ+改进了初始化策略，如权重的s值初始化，以提高模型准确性。实验表明，不同的初始化方法在不同情况下效果各异，需要根据实际情况选择合适的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是对lsq：Learned Step-size Quantization的改进。

关于lsq，这篇文章讲得很清楚：
https://blog.youkuaiyun.com/nature553863/article/details/104275477
简单来说，就是通过学习来确定量化间隔。

在lsq提出时，当时流行的激活函数是ReLU。它的特点是，将小于0的激活值都置为0，因此lsq在量化激活值时使用非对称量化：即只量化正的激活值，负值直接量化为0。这在当时是没问题的，但后来swish、H-swish以及Leaky-ReLU这类负值区域的激活值不为0的激活函数被提出，如果再这样做，就会导致精度的下降(lsq+的作者通过实验证明了这一点)。

在这里插入图片描述

但是如果采取和量化权重一样的，对称量化激活值也会带来一个问题：量化的间隔是有限的，分出一半给负值就会减少正值的表示能力，而且负值区域相较正值来说要少很多，这样做并不值得。

为了解决这个问题，lsq+的作者给激活值加了一个可学习参数β：
在这里插入图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。