这里介绍2017ICLR OpenReview中的一篇有关网络压缩的文章《Training Compressed Fully-Connected Networks with a Density-Diversity Penalty》。
看文章标题就知道主要是针对全连接层的,由此我的好感就下降了一半。
———————— 引言 ————————
作者拿VGG说全连接层会占很多资源,压缩这个最重要。好像哪里不对T_T(能压卷积层的才是厉害)。
文章提出了两个名词,我觉得很有意思: “Density” 和 “Diversity”。 这两个名词基本引出了现有的绝大部分深度模型的压缩方法。
“Density” 引出的方法比较有代表性的就是剪枝、矩阵分解等,即降低网络的稀疏度(冗余度),这样模型就被压缩了。
“Diversity”引出的方法比较有代表性的就是量化方法,用少量码字表示一个大的权重矩阵,即降低网络参数的多样性,这样就可以只存储这些不一样的码字,从而压缩模型。
于是,文章将全连接层的密度和多样性也加入loss中进行惩罚,意图使得网络变得更稀疏多样性更差。
而这也是我对这篇文章比较喜欢的一点解释: 作者将全连接层的密度和多样性加入loss中进行惩罚并不是为了直接得到一个小的模型,而是为了在此基础上更好使用剪枝和量化的方法(参考链接)。这是因为网络越稀疏,我们便可以剪

本文探讨了一篇2017年的ICLR论文,该论文提出将全连接层的“密度”和“多样性”纳入损失函数,以促进网络的剪枝和量化压缩。通过这种方式,作者旨在训练出稀疏且低多样性的网络,进一步进行有效压缩。这种方法避免了直接训练小型模型带来的困难,并提供了一种分步迭代的训练策略。
最低0.47元/天 解锁文章
418

被折叠的 条评论
为什么被折叠?



