论文总结：Incremental Network Quantization

最新推荐文章于 2024-10-10 07:24:55 发布

原创最新推荐文章于 2024-10-10 07:24:55 发布 · 468 阅读

2 ·

CC 4.0 BY-SA版权

介绍了一种名为INQ的神经网络量化方法，该方法通过权重划分、分组量化和再训练，将全精度CNN模型转换为低精度模型，显著减少了量化带来的精度损失。

论文地址：https://arxiv.org/pdf/1702.03044.pdf

主要内容

作者提出了一种新的神经网络量化方法——INQ，可以将训练好的全精度的CNN模型转换为权重为2的幂次方或0的低精度模型。INQ引入了三个操作：权重划分、分组量化和再训练。大致步骤为通过某种策略(随机划分或剪枝启发)将权重分为不相交的两组，先将第一组量化作为低精度模型的基，而第二组用于补偿量化带来的精度损失，所以要通过再训练，一直重复上述步骤直至全部量化。最后通过几组实验验证了该算法的有效性。

三个操作

CNN的量化存在两个关键问题：一是量化会带来一定的精度损失，二是为保证收敛需要增加迭代次数。
基于这两个问题，作者采用了包含权重划分，分组量化和再训练的INQ方法。
1. 权重划分
权重划分一般有随机划分和剪枝启发(pruning-inspired)两种策略，作者基于实验结果，选择了准确率更高的剪枝启发。
在这里插入图片描述
随机划分即随机将权重分为不相交的两组；而剪枝启发则是通过将权重的绝对值与分层阈值比较划分为两组(分层阈值则是由给定的分割比确定)，该策略认为绝对值大的权重更重要，即将绝对值大的一组作为低精度模型的基。

2. 分组量化
全精度的CNN模型最终需要量化为权重为2的幂次方或0的低精度的模型，即量化后的权重 $W^l\widehat W_l$ 中的每个数都对应于 $P_l$ ：
在这里插入图片描述
其中， $n2≤n1n_2 \leq n_1$ ，且均为整数。 $n_1$ 的取值如下：

由于位宽 $b$ 是给定的，所以由 $n_1$ 和 $b$ 就能确定 $n_2$ ： $n2=n1+1−2b−12n_2=n_1+1-\frac{2^{b-1}}{2}$ 。

最终的权重由下式确定：
在这里插入图片描述
其中， $α\alpha$ 和 $β\beta$ 是 $P_l$ 中的相邻元素。
3. 再训练
两组权重其中一组先量化作为低精度模型的基，另一组则需要通过训练再分组量化，直至权重全部量化完成。需要注意的是，已量化的组在训练过程保持不变。
在这里插入图片描述
如上图所示，(1)先进行权重划分为量化组和训练组，黑色部分为量化组；(2)然后分组量化，将量化组量化；(3)接着训练组进行再训练；(4)重复权重划分、量化；(5)继续迭代；(6)量化完成。