【Learning both Weights and Connections for Efficient Neural Networks】论文笔记

最新推荐文章于 2023-01-15 11:51:59 发布

原创最新推荐文章于 2023-01-15 11:51:59 发布 · 3.7k 阅读

7 ·

CC 4.0 BY-SA版权

网络压缩同时被 3 个专栏收录

17 篇文章

订阅专栏

论文笔记

16 篇文章

订阅专栏

参数裁剪

11 篇文章

订阅专栏

本文介绍了一种基于权重裁剪的网络压缩技术，该技术通过移除网络中不重要的连接来减少模型参数的数量，同时保持较高的预测准确性。文章详细讨论了裁剪过程包括训练、设置阈值进行裁剪及再训练等步骤，并对正则化、Dropout概率调整、裁剪比重等注意事项进行了说明。

追随Song Han大神的第一篇网络压缩论文（NIPS’15），论文链接：https://arxiv.org/abs/1506.02626
这篇论文只是简单介绍了裁剪的思路，并没有涉及到网络加速。

效果：

作者用了4个网络实验
Lenet-300-100, pruning reduces the number of weights by 12×
Lenet-5, pruning reduces the number of weights by 12×
AlexNet, pruning reduces the number of weights by 9×
VGG-16, pruning reduces the number of weights by 12×
修剪后的网络精度下降很低，有的还有所提高。

主要思想：

修剪网络中不重要的连接（直接置0处理），个人感觉有点像Dropout，但是和Dropout具体实现不同。（Dropout不修剪参数，只是随机选择，参数具体内容还在）

分3步：
1）训练网络，得到训练好的权重
2）设定一个阈值，对权重进行裁剪（个人在代码中选取的阈值是α*weight.std）
3）利用裁剪完的权重进行retrain（再训练），对保留下来的参数进行微调

注意事项：

正则化：

作者采用了L2范数，关于L1范数和L2范数对裁剪产生的影响，作者在论文后的实验中谈到。

Dropout概率的调整：

retrain期间的Dropout概率与原始训练时的Dropout概率相关，作者在论文中给出了计算公式。
这里写图片描述

裁剪比重：

网络中不同层参数裁剪的比例不同。卷积层参数裁剪比例应较小，裁剪过多会对网络的精度造成很大影响；因为全连接层的参数数量最多，而且全连接层对网络精度的提升效果并不是很大，所以全连接层裁剪比例应较大，笔者实验也证明了这一点。作者在论文中同时也给出了裁剪比例测试结果。
这里写图片描述

迭代裁剪：

其实就是循环裁剪（笔者认为retrain过程中训练一次，裁剪一次）

去除无效神经元：

就是将0输入和0输出的神经元裁剪掉

权重保存：

这点作者在论文中并没有提到，其实裁剪完的权重如果正常保存的话所占空间和原始权重是一样的，因为都还是float型，即便里面置0，但是所占空间的大小是不会变的。
笔者在裁剪完后发现了这个问题，最开始笔者采取只保存权重中的非0值和非0值的索引位置，但是发现这种保存方式在裁剪率较低的情况下会导致权重文件所占的空间比原始权重大，只有当裁剪比例达到一定程度时权重文件所占空间才会比原始权重小。
通过拜读了Song Han大神的下一篇论文【Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding】（ICLR’2016）看到了更好的解决方案。

19 条评论

默默守候只为心安 2019.09.18
博主，您好，我还是没怎么看明白阈值的设置，论文中也没有说这样设置吧？请问这样设置有什么论文参考或则数学依据吗？
- 江火如流萤回复默默守候只为心安 2023.02.24
  剪枝阈值选取为质量参数乘以一层权重的标准差。
- ℡无条件回复默默守候只为心安 2020.10.07
  我fork了一份pytorch的复现，你可以参考一下https://github.com/Guoning-Chen/SimplePruning-PyTorch。这里原作者的方法是直接把权重排序后取分位数，确实简单粗暴，不过肯定对模型有负面影响，会导致比较多的剪枝错误，所以后来有人提出在剪枝之后要对剪枝的错误进行修复（见论文[Dynamic Network Surgery for Efficient DNNs](https://arxiv.org/abs/1608.04493)）

哈哈哈啊爱代码 2019.05.14
博主，您好，针对这种剪枝，根据权重的是否重要剪枝，这种方法可以统计出剪枝之后减去的权重的数量吗？
- ren2966717445回复哈哈哈啊爱代码 2019.11.07
  [reply]weixin_40682154[/reply] 请问你知道那个阈值是怎么设定的了吗？找了很多还是太懂，按照绝对值大小来剪的话，那到底要剪多少个呢？
- 哈哈哈啊爱代码回复哈哈哈啊爱代码 2019.05.25
  [reply]weixin_40682154[/reply] 想再请教您一个问题，您给的参考代码目录里面，我看了关于main.py文件，没有找到关于设置稀疏值的代码片段，还有里面的thspace.py是什么意思？是设置每一层的阈值吗？
- 哈哈哈啊爱代码回复地大大刘 2019.05.24
  [reply]liujianlin01[/reply] 好的，知道啦。谢谢指导。
- 地大大刘回复哈哈哈啊爱代码 2019.05.23
  [reply]weixin_40682154[/reply] 这个依据是由你自己设定的，我个人一般都是按照大小排序，然后根据设定的剪枝比率裁剪掉小的那部分（假如一共有100个权值，剪枝比率是0.2，就把这100个中最小的20个裁剪掉）
- 哈哈哈啊爱代码回复地大大刘 2019.05.23
  [reply]liujianlin01[/reply]但是这个阈值应该是有取值根据的啊，不然多大算是重要的，多小又算是不重要的啊
- 地大大刘回复哈哈哈啊爱代码 2019.05.23
  [reply]weixin_40682154[/reply] 文中好像并没有写取值依据，但一般都是按照权重绝对值的大小判断重要性，即绝对值小的裁剪掉，绝对值大的保留。
- 哈哈哈啊爱代码回复地大大刘 2019.05.22
  [reply]liujianlin01[/reply] 谢谢您的回复，还有一个问题，文中的阈值是如何取值的？有什么根据吗？
- 地大大刘回复哈哈哈啊爱代码 2019.05.21
  [reply]weixin_40682154[/reply]可以的

Lucky_shark_111 2018.12.22
博主您好，请问能够提供这个剪枝代码学习参考吗
- ℡无条件回复Lucky_shark_111 2020.10.07
  我fork了一份pytorch1.2的复现，加了一些中文注释，你可以参考一下https://github.com/Guoning-Chen/SimplePruning-PyTorch
- 地大大刘回复Lucky_shark_111 2018.12.26
  [reply]Lucky_shark_111[/reply] 我自己的代码上次ubuntu崩的时候随着去了，这里我给出我当时参考的代码，你可以看下，思路是一样的。https://github.com/garion9013/impl-pruning-TF

励志学好数据结构 2018.11.13
您好，其实裁剪完的权重如果正常保存的话所占空间和原始权重是一样的，因为都还是float型，即便里面置0，但是所占空间的大小是不会变的，是不是如果把为0的remove掉模型权重会减少呢？还想请问一个问题，就是这个方法能加速吗？
- ℡无条件回复励志学好数据结构 2020.10.07
  Tensor本身是一个整体，没办法把0的元素remove掉，可以考虑pytorch的稀疏矩阵（参考torch.sparse）
- 地大大刘回复地大大刘 2018.12.26
  [reply]liujianlin01[/reply] 尝试，抱歉。
- 地大大刘回复励志学好数据结构 2018.12.26
  [reply]mengmengdajuanjuan[/reply] 存储方式的话，请看我的另一篇博客，https://blog.youkuaiyun.com/liujianlin01/article/details/80591990 加速的话，个人测试，如果你不对裁剪完的稀疏矩阵计算特殊处理的话，是达不到加速的效果的，加速效果并不明显。裁剪只能减少存储空间，当你重新恢复网络时，权重大小还是不变的，只是增加了权重计算中0乘的数量而已。（可以用稀疏矩阵计算加速库常事加速效果，我没有试过这个，没有深入探究）