【论文精读】Network In Network（1*1 卷积层代替FC层 global average pooling）

最新推荐文章于 2022-04-05 09:00:45 发布

俯仰天地

最新推荐文章于 2022-04-05 09:00:45 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：论文精读文章标签：深度学习计算机视觉机器学习分类算法

本文链接：https://blog.youkuaiyun.com/weixin_43669978/article/details/121448008

论文精读专栏收录该内容

10 篇文章

订阅专栏

提出了一种新型深度网络结构——网络中的网络(NIN)，通过在每个卷积层中加入微网络，增强了对图像局部区域特征的抽象能力。利用多层感知机(MLP)卷积层代替传统的卷积核，结合全局平均池化技术取代全连接层，有效避免过拟合并提高了模型的解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Network In Network

文章目录

- - Network In Network

摘要

作者提出了一种新的深度网络结构称为“网络中的网络（ $N I N$ ）”，目的是为了增强对感受野内图像块的辨别能力。

传统的卷积层使用线性滤波器，其后跟着非线性激活函数，用他们两个的组合来扫描输入。相反，作者用一种更复杂的结构去构微建神经网络，以达到抽象感受野内数据的目的。

作者将这种微网络结构用多层感知机的形式实例化。通过以和 $C N N$ 相似的方式在输入上滑动微网络，就可以获得特征图。这些特征图将作为输入被传递至下一层。

深度 $N I N$ 能够通过堆叠许多个上述结构来实现，通过微网络来提升局部建模，作者能够利用在分类层的特征图上进行全局平均池化，这更容易解释并且比传统 $F C$ 层更不具有过拟合的倾向。

作者用 $N I N$ 在 $C I F A R - 10$ 和 $C I F A R - 100$ 上展示了达到先进水平的性能，并且在 $S V H N$ 和 $M N I S T$ 上表现良好。

1. 介绍

下文中“概念”通俗理解就是特征的种类

传统卷积网络有什么问题？

$C N N$ 中的传统的卷积核对于图像块来说是一个广义线性模型（ $G L M$ ），作者认为 $G L M$ 所提取特征是低层次的，作者认为抽象意味着对于概念相同的变体的特征是不变的。用一种更强劲的非线性函数逼近器来替换 $G L M$ 能够提增强局部模型抽象的能力。但是在变量是线性可分时， $G L M$ 的抽象能力很好，但是同类数据经常线性不可分，因此能够捕捉这种性质的表征经常是输入的高度线性不可分函数。

在 $N I N$ 中， $G L M$ 被替换为一种“微网络”结构，可看成是一种广义的非线性函数逼近器，作者选择多层感知机作为微网络的实现，他是一种通用的函数逼近器，能够用过反向传播训练。

由此而来的，称之为 $M l p c o n v$ 的结构在 $图 1$ 中与 $C N N$ 进行了对比。

相同点和不同点

他们都将局部感受野映射为特征向量，但 $M l p c o n v$ 通过多层感知机（ $M L P$ ）来完成映射， $M L P$ 由多个全连接层和非线性激活函数组成，此 $M L P$ 在所有局部感受野之间共享，特征图通过在输入上滑动 $M L P$ 来获得， $N I N$ 的整体结构时多个 $m l p c o n v$ 层的堆叠。

作者没有采用传统CNN中的FC层进行分类，而是直接用全局平均池化对最后的 $m l p c o n v$ 层取平均值作为类别的置信度，然后将产生的向量直接送入 $s o f t m a x$ 层。

平均池化带来的好处？

在传统的CNN中，很难解释来自目标成本层的类别级信息是如何传递回前一个卷积层的，因为完全连接的层在两者之间充当一个黑匣子。相反，全局平均池化是一种更有意义，解释性更强的方式，因为它加强了特征图和种类之间的对应关系，这是通过使用微网络进行更强的局部建模来实现的。

另外， $F C$ 层更倾向于过拟合，并且严重依赖于 $d r o p o u t$ 正则，但是全局平均池化本身就是一种结构正则化方法，能够简单的组织过拟合。

2. 卷积神经网络

传统卷积神经网络的问题：

对于线性可分的表征来说，卷积神经网络用来进行特征抽象是足够的。但是能够实现好的抽象的表征往往是输入数据的高度线性不可分函数。传统 $C N N$ 中，可以通过使用一整套滤波器来进行补偿，以覆盖潜在概念的所有变体。（通俗来讲就是也能找到属于该种类的线性不可分的样本。）即单个线性滤波器能够学习检测同一个种类的不同表现形式。但是对于一个概念用太多滤波器会对下一层施加额外的负担，下一层需要考虑上一层中变体的所有组合。

$C N N$ 中越高层的滤波器向原始输入中投射的区域越大。通过组合低等级的属性种类来产生高等级的属性种类。因此，作者认为在将低等级特征组合成高等级特征之前，就在每个局部块上做好抽象比较好。

之前的改进工作

在最近的 $m a x o u t$ 中，通过在放射特征图上做最大池化来减少特征图数量。线性函数上做最大化产生一个分段线性逼近器，能够逼近任何凸函数。

$m a x o u t$ 更加强劲因为它能划分位于凸函数集中的特征种类，这中改进使得 $m a x o u t$ 网络在许多基准数据集上展示出极佳的表现。

之前改进工作存在的问题：

但是， $m a x o u t$ 网络施加了一个先验条件：潜在概念的实例都位于输入空间的凸集中，这不一定成立。所以当潜在概念的分布更复杂时有必要使用一个更具普适性的函数逼近器。

本文所做的改进：

作者希望能通过引入“ $N I N$ ”来实现这个目的，在每个卷积层中引入“微网络”来计算局部块更加抽象的特征。

之前也有工作提出在输入数据上滑动微型网络来获取特征图，但是这些工作都具有针对性并且只有一层。本文是从一个更加普适的角度提出的 $N I N$ ，这种微型结构被整合进 $C N N$ 结构中来更好的对各个等级的特征进行抽象。

3. NetWork In Network

$N I N$ 的关键组成部分：

$M L P$ 卷积层
全局平均池化层

3.1 MLP卷积层

径向基网络（Radial basis Network）和多层感知机是两个众所周知的通用函数逼近器。

为什么选择多层感知机？

卷积神经网络用反向传播来训练，多层感知机适合其结构，
多层感知机自己也可以是一个深度模型，遵循特征复用的精神。

本文中将这种新类型的层称为“ $m l p c o n v$ ”，用 $M L P$ 代替 $G L M$ 在输入上进行卷积。所执行的计算如下所示：

$f_{i,j,k_1}^1=max({w_{k_1}^1}^Tx_{i,j}+b_{k_1},0)$

…

$f_{i,j,k_n}^n=max({w_{k_n}^n}^T{f_{i,j}^{n-1}}+b_{k_n},0)$

n是多层感知机的层数。

什么是级联跨通道带参数的池化层(cascaded cross channel parametric pooling)

微型网络在输入数据上进行滑动，每滑动一次，在输入数据上产生一个滑动窗口，称为一个 $p a t c h$ 。对于一个 $m\times n\times k$ 的 $p a t c h$ ，用 $p$ 个 $m\times n\times k$ 的卷积核进行卷积，输出 $k$ 个 $1\times1$ 的特征图，然后再将这 $k$ 个 $1\times1$ 的

作为 $F C$ 层的输入，输出 $k$ 个 $1\times1$ 的特征图，如下图所示：

其中全连接层可以通过 $1\times 1$ 的卷积来替代，就是对 $1\times1\times p$ 的 $feature\space map$ 用 $p$ 个 $1\times1\times p$ 的卷积核进行卷积，输出结果的 $s i z e$ 同样为 $1\times1\times p$ 。

上图省略了激活函数和池化函数

这也是级联跨通道带参数的池化层名称的由来，本来是由卷积产生的 $1\times1\times p$ 的特征图， $p$ 代表的是特征的个数，我们将这 $p$ 个 $1\times 1$ 的特征用不同的参数进行赋权组合，所以称为跨通道带参数的池化层。这一过程本身是通过 $F C$ 层来完成的，但是使用 $1\times 1$ 的卷积层来进行代替。

优点：允许跨通道信息的复杂的可学习的交互。

这里也提出了一个概念：全连接网络可以用 $1\times 1$ 的卷积层来进行代替，很多论文中都引用了这一观点。

3.2 全局平均池化

传统的卷积神经网络都是在提取特征时执行卷积，然后分类时将提取到的特征传入 $F C$ 层以及气候的 $s o f t m a x$ 层。这种结构将卷积结构和传统的神经网络分类器连接起来，将卷积层作为特征提取器。

FC层有什么问题？

$F C$ 层容易过拟合。为解决此问题所提出的 $D r o p o u t$ 有效提升了模型泛化能力，抑制过拟合。

本文的解决方法

作者提出了一种称作全局平均池化的策略来替换CNN中的 $F C$ 层。主要思想是在最后一个 $m l p c o n v$ 层中，为分类任务的每个对应的种类产生一个特征图。

本文方法的优势

1. 相比于$FC$层，全局平均池化层强制要求特征图和种类之间的对饮关系，因此更加适合卷积结构。
2. 没有参数，无需优化，所以在这层中不会出现过拟合。
3. 将空间信息相加，对于输入信息的空间移动更加健壮。

作者认为，可以将全局平均池化看成是结构正则化方法，强制地将特征图强制映射为置信度图。这点可以通过 $m l p c o n v$ 层来实现。

3.3 Network In Network结构

$Network\space In\space Network$ 整体结构就是许多 $m l p c o n v$ 堆叠起来，最上层是全局平均池化层和分类层。可以在 $C N N$ 和 $m a x o u t$ 网络中的 $m l p c o n v$ 层之间添加子采样层。 $图 2$ 展示了具有三个 $m l p c o n v$ 层的 $Network\space In\space Network$ 结构。在每个 $m l p c o n v$ 层内有一个三层感知机，网络中的层数量对于特定的任务是可变的。