深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记

原创

于 2018-01-19 13:51:40 发布 · 4.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #压缩

本文是关于深度学习模型压缩的论文阅读笔记，重点探讨了Binarized Neural Networks和Low Precision量化技术。论文提出了对权重和激活函数进行二值化的方法，包括确定性和随机性策略，并解决了二值化导致的梯度问题。此外，还讨论了针对ReLU的低精度量化，如Half-wave Gaussian Quantization，以及在前后向传播中的处理方式。

深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记

论文：Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or 1

Weight and Activation
首先，该论文主要把weight和激活函数结果activation在训练时都做了二元化操作。具体来说，文章介绍了两种binarization方法，确定法（deterministic）和随机法（stochastic）:
- deterministic：给定x，若x > 0，返回+1，反之返回-1。
- stochastic：根据x的值，计算返回+1的概率p，在做二元化操作时，以p为概率返回1，反之返回-1。具体p的计算公式为 $\sigma(x) = clip(\frac{x + 1}{2}, 0, 1) = max(0, min(1, \frac{x + 1}{2})))$
这里有一个例外，就是input layer，它的输出通常是image信息，文中并没将其binarized。
Gradient
- gradient在实现中保留了浮点数的形式，原因应该是为了保证SGD的有效。
- 在计算gradient时，会对weights和activations加一些noise以增加generalization。（待定，看论文公布的实现再确认）
Propagation
- 因为前向的时候相当于是对weight和activation求了个sign函数，而sign()的导数几乎处处为0，这显然没法用到后向的计算中，因此需要找到一个sign函数导数的估计。
- 论文中选择的是1|

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。