-
大致背景及思路
a. 由Momenta团队完成,2017年ImageNet大赛的冠军结构,top-5 error降到了只有2.25%,相比于2016年冠军,有接近25%的提高。
b. 为了提高网络提取特征的能力,很多方法都致力于在空间上做出一些加强。而这篇文章,从通道之间的关系入手,提出了一个新的结构单元“SE Block”。 -
具体结构及思路
a. 首先从CNN说起,CNN通过在局部感受野上,通过将空间上的信息和基于通道的信息融合,得到大量信息的结合。很多的工作都将关注点放在了空间上,所以自然的我们也可以从通道上进行考虑。
b. 这个结构的核心在于它能通过使用全局的信息,有选择的加强有意义的特征,压制无用特征,使得网络重新适应特征。
c. 结构如下图:
1.首先,输入X通过一个普通的卷积层,得到特征层U。
2.将U通过全局池化,得到11c的Z,这一步被称作Squeeze。原本的每个卷积只是对应在自己的感受野 上,而无法利用区域外的上下文信息,在较低层时,这个问题显得更加明显。而这个转化,可以被看作时在各个通道上的全局信息的集合,也就是说具有了全局的感受野,那么在后续就可以利用全局信息了。
3.然后将Z通过两个全连接层,和两激活函数,其中第一次时Relu,第二次为Sigmoid。这一步被称为 Excitation。这步使得通道的权重适应与输入的Z,也就是可以动态的去适应输入,提高对于特征的分辨力。
4.然后就是将得到的各个通道的权重和原本的U结合,得到最终的输出。
5.整个SE Block其实很像RNN中的门结构,Excitation决定了通过的特征的权重。d. 由于引入的结构中包含两个全连接层,使得整体的模型参数由一些增长,大约在百分之10左右。d. 由于引入的结构中包含两个全连接层,使得整体的模型参数由一些增长,大约在百分之10左右。
-
实验结果
a. 可以看到,在加入了SE Block后,错误率相比原版本都有一定的下降。论文后续还比较了在多个数据集,包括检测任务的数据集上的效果,都得到了优于传统结构的结论。