论文阅读: Going deeper with convolutions
这是关于ILSVRC2014的优胜者GoogleNet的论文,论文详细地讲解了这个模型的核心模块**”Inception"**结构是如何提出的,实际上对于作者说的”稀疏性“,实在是没有理解。由此先写下自己理解的部分。
1、摘要
作者提出了一种”Inception“的结构来提升深度卷积神经网络的性能,并在ILSVRC2014中获得了成功。该结构的主要特点是提高了网络内部的计算效率(关于这一点,其实并不是十分理解)。Inception的设计遵从了Hebbian principle,同时结合多尺度处理的直觉经验。
**Hebbian principle:**指的是如果两个神经元常常同同时产生动作电位,或者说同时激活,则这两的神经元之间的连接就会变强,反之变弱。对应到神经网络中就是使用更少的卷积核,通过多尺度的卷积核进行不相关的特征组,实际上就是预先把相关性强的特征汇集,加速收敛。
2、引言
作者强调了最近以来深度学习令人欣喜的一点是,在图像分类、目标检测上的发展更多的源自于创新的想法(Idea),更有效的算法以及针对网络结构的改进。基于当下的移动端、嵌入式计算的要求,深度学习模型的算力、内存变得越发重要,进而说明本文提出的GoogleNet不单纯以提升准确性为目的,同时考虑了实用性。
3、相关工作
作者列举了自LeNet以来的深度学习模型在视觉任务上的成功,同时说明对于大型的数据集,传统的提升网络模型性能的方式是加深网络的层次、增加每一层中神经元的数量,同时使用一些诸如Dropout的方法来抑制过拟合。收到Serre等人的启发,作者想到不同尺寸的滤波器来处理多尺度的信息。
另外,Lin等人”Network in Network"的工作目的在于提升网络的特征表达能力,应用到CNN上就可以看成在原来堆叠的Conv上加入了额外的1x1卷积,即增加的非线性。在Inception结构里,1x1卷积的另一个主要作用是做特征的降维(dimension reduction),通过1x1卷积可以压缩特征通道,可以在相同的计算资源下加深、括宽网络结构,以获得更好的性能。
4、动机及考虑
扩大网络(深度、宽度)会导致参数体量变大,同时更容易过拟合,尤其在数据集受限的情况下。增大网络的另一个缺点就是急剧增加的计算量合理地分配计算资源变得尤为重要。解决上述问题的方法就是将全连接改为稀疏连接,哪怕是在卷积层内部(我的理解是在上一层生成的特征图上随机进行下一层连接?)
随后,作者提到了在当前的计算架构下,进行非一致性稀疏数据的计算是很没有效率的,因为运算时查找的开销以及cache命中率的低下使得转换为稀疏矩阵也不见得有多好的效果(??? 那还要稀疏连接,迷惑)。作者还提到,自Lecu等人开始,传统的Convnet都采用的是随机稀疏连接(random and sparse connection)因为这样可以打破特征对称性加快学习。但是到了Alexnet又回到了全连接,因为需要保持网络的一致性以利于并行计算。
那么,作者提出一个新的问题:能否找到一种新的网络架构可以利用额外的稀疏性,同时也要能够在当下的硬件条件下利用密集矩阵的计算来完成。大量关于稀疏矩阵计算的文献表明,将稀疏矩阵聚类成密集的相关子矩阵,在稀疏矩阵的乘法运算中往往能达到较高的性能,这样的方法同样也可以应用于构建非一致的深度学习架构。这可能就是作者为什么要使用多尺度卷积核的原因吧。。。。。
5、架构的细节
作者提到,Inception结构的主要思路是在卷积网络中,如何找到现有的密集组件(结构)来近似、覆盖一个最优的局部稀疏结构。按照我的理解就是在当下密集连接下怎么进行稀疏的近似,这一点和之前“稀疏矩阵转换为密集相关子矩阵”恰好是一个逆过程。而作者的做法就是在同一个层次上使用多个尺度的卷积核来提取信息,并把提取的特征整合形成下一层的输入。
除了使用多尺度的卷积以外,在Inception结构中,作者还加入了maxpooling层以提升性能。同时,作者提到随着网络层次的加深,提取的特征越发抽象,则特征额空间聚合性变弱,因此需要在高层次使用更高比例的3x3、5x5卷积(关于这一点,我并没有在后面的网络架构中看出3x3、5x5卷积的比例有提高。。。。)
初始的Inception结构如下所示:
原始的结构出现了一个不可忽视的问题:如果特征图的通道数过大(即上一层卷积核数量过多)会导致当前layer的卷积计算耗费较大,当在模块内加上了pooling层之后,这个问题越发明显(因为pooling层是保持通道数的),由此针对原始结构做了改进,加上1x1卷积做降维处理)
改进后的Inception结构如下图所示:
需要注意的一点是:对于maxpooling层来说降维处理是在pooling之后。
Inception架构的主要优点在于可以在控制计算复杂性的情况下显著增加每一层的神经元数量(由于conv之前的1x1卷积)同时,这种架构也让视觉信息能够在不同尺度下进行处理、聚合,进而同时提取不同尺度的特征。
6、GoogleNet
GoogleNet是Inception结构的一个范例,作者及其团队利用这个22层的GooglNet参加了ILSVRC2014竞赛。具体的网络结构如下:
其中**#1x1、#3x3、#5x5表示卷积核的个数,#3x3 reduce、#5x5 reduce**表示随后的1x1卷积核的数量,pool proj 表示maxpooling层之后的1x1卷积核数。整个网络以224x224x3(RGB)作为输入,同时在执行classifier之前加入了一层平均池化(avg pooling)和额外的线性层(linear)。实验结果表明将全连接层改为平均池化在Top-1准确率上有0.6%的提升。
另外,随着网络结构的加深,GoogleNet也不免会出现梯度在反向传播时消失的问题,作者发现相对较浅的网络的良好表现证明网络中间层产生的特征应该具有很强的鉴别力。所以作者在GoogleNet的层中间加入了两层额外的辅助分类器(auxiliary classifiers)来增强反向传播时的梯度信号,并增加额外的正则化(additional regularization),这两个分类器分别加在Inception(4a)和Inception(4d)之后,并且只在训练阶段有用,推理阶段去除。
辅助分类器的结构如下:
- 平均池化:5x5(strides = 3), 在(4a)中输出为(4,4,512),(4d)中输出(4,4,528)
- 1x1卷积:1x1(strides = 1, kernal_num = 128),得到(4,4,128)的输出
- 全连接FC: 1024个神经元,由(4,4,128)得到(1,1,1024)输出
- Dropout: 70%的dropout比率
- FC with Sottmax: (1,1,1024)得到(1,1,1000)类别得分
7、训练方法
基于CPU实现,优化方法SGD+Momentum(0.9),学习率衰减(learning rate decay)方式为每8个epoch降低4%。同时GoogleNet的图像采样方式也有很大的变化,采样图像中大小均匀分布在图像面积的8% ~ 100%之间,并随机选取高宽比在3/4 ~ 4/3之间的各大小patch。同时,采用了Andrew Howard等人提出的光度扭曲(photometric distortions)来更好的抑制过拟合问题。另外,GoogleNet还采用了随机插值的方法resize图像。
8、ILSVRC分类任务
GoogleNet在进行ILSVRC任务时没有使用额外的数据集用以训练,同时在测试阶段采用了一些方法提高准确性:
- 训练了7个类似的Inception模型用以模型集成
- 使用更“疯狂”的图像剪裁方法:首先将输入的测试图像根据短边resize成4个不同的尺度(256,288,320,352),然后截取其左、中、右三个部分的正方形patch;随后在每个patch上取(左上,右上,左下,右下,中间)五个部分的224x224的patch,加上自身resize成224x224;再对于每一个patch进行镜像(mirror),所以一张图像被crop成(3x4x6x2 = 144)张图像,将这144图像的平均得分作为预测输出。
- 同时作者还比较了在crop上做maxpooling(max pooling over crops),以及在多个分类结果上做平均(average over classifiers),发现通过简单的平均可以获得更好的性能。
以下展示了GoogleNet在竞赛中的表现(Table2)以及不同的ensemble和crops策略下GoogleNet的性能(Table3)
9、ILSVRC2014 检测任务
在检测任务中,当预测的类别与真实类别一致,且目标边界框与参考框重合超过50%就认为该检测目标检测结果正确,而其他的检测结果被视作假阳性(false positive),FP结果往往都是被目标函数惩罚的(penalized)。由于一张图像中可能存在多个尺度的多个目标(当然有可能没有),所以结果常常以平均精度均值(mean average precision mAP)作为指标。
在目标检测任务中,GoogleNet采用的方法大体上与R-CNN一致,但是采用了Inception结构对区域提取(预测)(region proposal)进行增强, 同时也加入了选择性搜索。在对候选区域进行分类时,集成了6个ConvNet的结果,将准确率从40%提升至43.9%。 相比起R-CNN,GoolgNet没有使用边界框回归。
Table4是在检测任务中的性能比较,而对于当个模型,GoogleNet的检测mAP低于DeepInsight,可以预见若是加上上下文模型以及边界框回归,GoogleNet的性能应该还有提升。
10、结论
GoogleNet向我们通过当下的密集模块的设计来近似最优的稀疏结构是提升视觉神经网络性能的可行方法,通过Inception的设计可以在不显著增加计算量的前提下提升模型的性能。
11、代码浅析
import warnings
from collections import namedtuple
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.jit.annotations import Optional, Tuple
from torch import Tensor
from .utils import load_state_dict_from_url
__all__ = ['GoogLeNet', 'googlenet', "GoogLeNetOutputs", "_GoogLeNetOutputs"]
model_urls = {
# GoogLeNet ported from TensorFlow
'googlenet': 'https://download.pytorch.org/models/googlenet-1378be20.pth',
}
GoogLeNetOutputs = namedtuple('GoogLeNetOutputs', ['logits', 'aux_logits2', 'aux_logits1'])
GoogLeNetOutputs.__annotations__ = {
'logits': Tensor, 'aux_logits2': Optional[Tensor],
'aux_logits1': Optional[Tensor]}
# Script annotations failed with _GoogleNetOutputs = namedtuple ...
# _GoogLeNetOutputs set here for backwards compat
_GoogLeNetOutputs = GoogLeNetOutputs
def googlenet(pretrained=False, progress=True, **kwargs):
r"""GoogLeNet (Inception v1) model architecture from
`"Going Deeper with Convolutions" <http://arxiv.org/abs/1409.4842>`_.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
progress (bool): If True, displays a progress bar of the download to stderr
aux_logits (bool): If True, adds two auxiliary branches that can improve training.
Default: *False* when pretrained is True otherwise *True*
transform_input (bool): If True, preprocesses the input according to the method with which it
was trained on ImageNet. Default: *False*
"""
if pretrained:
if 'transform_input' not in kwargs:
kwargs['transform_input'] = True
if 'aux_logits' not in kwargs:
kwargs['aux_logits'] = False
if kwargs['aux_logits']:
warnings.warn('auxiliary heads in the pretrained googlenet model are NOT pretrained, '