SPF论文笔记与实验结果

本文探讨了参数剪枝与滤波器剪枝的区别,指出了参数剪枝的缺点,并提出SPF方法,允许在训练过程中更新被剪枝的卷积核,同时减少了对预训练模型的依赖。实验表明,SPF能有效提高模型容量,且在剪枝率较高的情况下仍保持高识别率。然而,该方法在数据量小且无预训练模型的情况下可能面临挑战。


摘要

两大特点

  • 更大的模型容量-可以更新之前修剪的参数,而不是固定为0
  • 更少的依赖于之前训练好的模型,可以一边从头开始训练一边做剪枝

1.介绍

1.1参数剪枝与滤波器剪枝的区别

滤波器剪枝才可以真正的提高速率

1.2参数剪枝的两大缺点:

  • a.模型容量降低
  • b.需要之间训练好的模型

1.3基本训练过程:

在每一轮的迭代中都将L2正则化参数小的卷积核置0

1.4模型的贡献:

  • a.让卷积核可以在训练过程中更新
  • b.可以让模型从0开始训练
  • c.识别率很nb

2.相关工作

之前的模型压缩算法有张量分解,低精度权重,和剪枝。其中张量分解和低精度权重与我们的研究是正交的,在未来的工作中可以将这两个方法与我们的模型融合。

2.1权重剪枝

权剪枝总是带来非结构性的调整。所以很难取得真正加速

2.2滤波器剪枝

各种滤波器剪枝方法都会使模型容量减小

2.3讨论:与现有的软剪枝方法的区别

  • a.我们关注对滤波器的剪枝,而郭的是对权重的剪枝
  • b.郭更注重的是模型的压缩,而我们模型还考虑了识别的精度
  • c.郭的实验只在AlexNet进行,这个网络相比更前沿的网路有更多的冗余

3.研究方法(Methodology )

3.1准备工作(Preliminaries)

介绍了符号和注释

3.2 SPF

提到另外一个优点是可以全局一起修剪

  • a.滤波器选择:L范数越小的被删减的优先级越高
  • b.滤波器剪枝:以一定的比例使滤波器置0,这样的时间效率很高
  • c.重构:进入下一轮迭代,不需要fine-tuning
  • d.得到模型:算法收敛,删除置0项,得到Compact的模型
    SPF算法伪代码
    流程图

4.评估和结果(EvaluationandResults)

可调的超参数:

  • 评价准则L2>L1
  • 剪枝率
  • 一个epoch所含的interval
  • 不同层的剪枝率

这些都可以后续进行研究

5.总结和未来工作

6.致谢(Acknowledgments)

-----------------------------------------------------------

观后感:缺点

  • 模型需要迭代至算法收敛,如股数据量很小且没有原始模型怎么整
  • 还是基于L1/L2范数的评价指标,没有考虑如果基于其他评价体系是否会有更好的效果呢
  • 无法对网络架构进行修剪
  • 感觉论文中有很多废话

观后感:疑问

  • 这个文章的创新点看起来并不是很复杂,数学原理比较简单,为什么可以
    中顶会IJCAI?难道是因为实验效果好吗?

---------------------------------------------------------

实验

代码技巧

  • 获取filter中的weight

通过如下代码可以看到模型中各个参数的名称

reader=pywrap_tensorflow.NewCheckpointReader(checkpoint_path)  
var_to_shape_map=reader.get_variable_to_shape_map() 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值