1.相同准确率下,参数更少的模型有三个好处:
1)高效的分布式训练
2)替换模型更容易
3)FPGA部署遍更便利
2.本文三个策略:
1)用1*1的核来替换3*3的核,可以减少9倍参数
2)减少输入到3*3核的输入channel数量,因为参数由N*
C*W*H决定
3)延后下采样,使得卷基层有较大的activtion maps。关于这一点文章提到K.He有篇文章说
较大的特征图会带来较高的准确率。有时间了要拜读一下
3.Fire Module
1)组成:squeeze + expand
其中
squeeze是由
s1个1*1的卷积核组成的,送入expand 部分,对应策略1
expand由e1个1*1的卷积核以及
e3各3*3的卷积核组成的
2)一般令 s1 < e1 + e3, 这样可以限制输入到3*3核的channel。对应策略2
3)stride为2的max-pooling只位于conv1,fire4,fire8,conv10。对应策略3
4)其他细节:
zero-padding在3*3核的输出,使其与1*1的输出大小一致
如NIN一样没有FC
caffe中用两个conv layer,然后concat来实现
4.结论:
参数较alexNet减少50倍,top1 imagenet准确率反而略有提升(57.2 -> 57.5),top5没有降低(80.3)