剪枝系列1：AutoPruner

最新推荐文章于 2025-03-17 15:59:53 发布

原创最新推荐文章于 2025-03-17 15:59:53 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#剪枝 #神经网络压缩

剪枝论文专栏收录该内容

5 篇文章

订阅专栏

AutoPruner是一种新型的深度模型推断效率提升方法，采用通道剪枝、边剪边调优及非人工准则。论文提出在每层加入编码层，通过损失函数控制输出向量的稀疏度，实现剪枝后的通道直接移除，简化后续finetune步骤。然而，方法中控制收敛的参数α难以设定，且编码层初始化复杂。

剪枝系列1：AutoPruner

这是此系列第一篇博客，也是我的第一篇博客，可能许多地方写的简略。主要目的是记录一下看过的论文，以后自己要用到的时候可以快速了解这篇论文的主要思想。

AutoPruner: An End-to-End Trainable Filter Pruning Method for Efficient Deep Model Inference是2018年南京大学的一篇文章，算是比较新的剪枝算法吧。这几年在剪枝方面出了很多思路，比如三阶段法（train-prune-finetune），边训练边剪法，逐层剪还是所有层同时剪，一次性剪还是每次剪，或者有人直接质疑剪枝的必要性，认为直接训练小模型效果并不差。但是总体来说，主要还是围绕着channel pruning（filter pruning）来展开。最传统的也是最简单的方法是，根据每一层自己的卷积核的参数，设计准则去掉被判断为不重要的channel，有L1准则，泰勒展开准则，GM和RePr准则；其他做法比如ThiNet是根据下一层的输出来判断本层的重要性；还有的剪枝算法关注每层剪枝率的设置，用了强化学习的方法来找出最佳剪枝率；也有的希望在训练时通过修改损失函数来训练出冗余卷积核的。

本篇论文，是一个通道剪枝+边剪枝边finetune+逐层剪枝+非人工准则的方法。（两阶段，训练阶段还是要的，只是剪枝和finetune结合到一起了）

方法如下：对每一层，添加一层编码层，设置损失函数来使得编码层输出为0,1的向量，并且1的数量满足剪枝率。编码层的输出会和原来的层相乘，训练结束后，0对应的通道被直接拿掉，不用再另外finetune。
结构图
但是这个方法有一个控制收敛到0,1的参数 $α\alpha$ 特别不好设置。每种网络、每个层的 $α\alpha$ 都不一样。特别不方便。而损失函数是用来控制稀疏程度的。还有编码层的初始化也比较难搞。