GoogLeNet与Inception系列详解-优快云博客

GoogLeNet, 由谷歌为ILSVRC2014竞赛开发并夺冠, 通过引入Inception模块解决网络深度与宽度增加带来的过拟合与计算量增大问题。从InceptionV1到V4, 通过1x1卷积降维、取消全连接层、引入批归一化及残差连接等策略, 不断优化网络结构。

GoogLeNet 网络

GoogLeNet 是由谷歌为了参加 ILSVRC 2014 大赛而开发的，并在挑战赛上获得了冠军，将 Top5 的错误率降低到 6.67%，总体上是一个 22 层的深度网络。

一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，但这也意味着更多的参数，这容易带来过拟合，也大大增加了计算量。GoogLeNet 论文认为解决上述两个缺点的根本方法是将全连接层甚至一般的卷积都转化为稀疏连接，对于大规模稀疏的神经网络，可以通过分析激活值的统计特性和对高度相关的输出进行聚类来逐层构建出一个最优网络。所以，为了既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能，论文提出了inception的结构！

GoogLeNet 的进化顺序为：

Inception V1 ->Inception V2 ->Inception V3 ->Inception V4

Inception V1

Inception 结构的主要思路是用密集成分来近似最优的局部稀疏结构，坐着首先提出如下的的基本结构：
在这里插入图片描述
对上图的解释为：

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合
卷积核大小采用 1，3，5，主要是为了方便对齐。设定卷积步长 stride=1 后，这要分别设定 padding=0, 1, 2，就可以在卷积后得到相同维度的特征，然后将这些特征拼接在一起
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3 x 3 和 5 x 5 卷积的比例也要增加。

一、1 x 1 卷积

使用 1 x 1 卷积实现降维

1 x 1 卷积实现的是 “同一个像素点上” 的各个通道的值的线性组合，如图所示
$f(a_{11}x_1+a_{12}x_2+...+a_{1c}x_c)=y_1$
$f(a_{21}x_1+a_{22}x_2+...+a_{2c}x_c)=y_2$
$. . . . . .$
$f(a_{k1}x_1+a_{k2}x_2+...+a_{kc}x_c)=y_k$

1 x 1 卷积有两个方面的作用：

实现了跨通道的交互和信息整合
进行卷积核通道数的降维和升维

二、使用 1x1 卷积改进

使用 5 x 5 卷积核仍然会有极大的计算量，因此引入了 1 x 1 来进行降维：举例来说，假设上一层输出为 100 x 100 x 128，经过具有 256 个 5 x 5 卷积核的卷积层(stride=1, pad=2)之后，输出数据为 100 x 100 x 256，这时卷积层的参数为 128 x 5 x 5 x 256。

此时，如果上一层输出先经过具有 32 个输出的 1 x 1 卷积层，再经过具有 256 个输出的 5 x 5 卷积层，那么最终输出数据仍是 100 x 100 x 256，但卷积层参数数量减少为 128 x 1 x 1 x 32 + 32 x 5 x 5 x 256，大约减少了 4 倍。

改进后的 Inception Module 如下图
在这里插入图片描述