DL 入门：关于「Inception」和「Xception」的那些事

最新推荐文章于 2024-04-01 16:01:06 发布

「已注销」

最新推荐文章于 2024-04-01 16:01:06 发布

阅读量313

点赞数

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/laoliaixuexi/article/details/100011361

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

Inception 是神经网络结构的一大神作，其提出的「多尺寸卷积」和「多个小卷积核替代大卷积核」等概念是现如今许多优秀网络架构的基石。也正是如此，基于此的 Xception 横空出世，作者称其为 Extreme Inception，提出的 Depthwise Separable Conv 也是让人眼前一亮。

本文不详细讲解论文内容，只探讨提出的这几个基础概念和结构，并按照时间顺序来探讨。首先探讨的是 Inception 的多尺寸卷积核和卷积核替换，然后到 Bottleneck，最后到 Xception 的 Depthwise Separable Conv 。

多尺寸卷积核

Inception 最初提出的版本，其核心思想就是使用多尺寸卷积核去观察输入数据。

举个例子，我们在不同位置看同一个物体会看到不同的景象，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：

在这里插入图片描述
于是我们的网络就变胖了，增加了网络的宽度，同时也提高了对于不同尺度的适应程度。

Pointwise Conv

但是我们的网络变胖了的同时，计算量也变大了，所以我们就要想办法减少参数量来减少计算量，于是在 Inception v1 版本加上了 1x1 卷积核。
在这里插入图片描述
使用 1x1 卷积核对输入的特征图进行降维处理（通道减少），这样就会极大地减少参数量，从而减少计算。
举个例子，输入数据的维度是 256 维，经过 1x1 卷积之后，我们输出的维度是 64 维，参数量是原来的 1/4 。
这就是 Pointwise Convolution，俗称叫做 1x1 卷积，简写为 PW，主要用于数据降维，减少参数量。
也有使用 PW 做升维的，在 MobileNet v2 中就使用 PW 将 3 个特征图变成 6 个特征图，丰富输入数据的特征。

卷积核替换

就算有了 PW ，由于 5x5 和 7x7 卷积核直接计算参数量还是非常大，训练时间还是比较长，我们还要再优化。于是就想出了使用多个小卷积核替代大卷积核的方法，这就是 Inception v3，如图所示：

在这里插入图片描述
使用两个 3x3 卷积核来代替 5x5 卷积，效果上差不多，但参数量减少很多，达到了优化的目的。不仅参数量少，层数也多了，深度也变深了。
除了规整的的正方形，我们还有分解版本的 3x3 = 3x1 + 1x3，这个效果在深度较深的情况下比规整的卷积核更好。
在这里插入图片描述我们假设输入 256 维，输出 512 维，计算一下参数量：
5x5 卷积核
256∗5∗5∗512=3276800
两个 3x3 卷积核256∗3∗3∗256+256∗3∗3∗512=589824+1179648=1769472
结果对比
17694723276800=0.54*17694723276800
我们可以看到参数量对比，两个 3x3 的卷积核的参数量是 5x5 一半，可以大大加快训练速度。

Bottleneck

我们发现就算用了上面的结构和方法，我们的参数量还是很大，于是乎我们结合上面的方法创造出了 Bottleneck 的结构降低参数量。
Bottleneck 三步走是先 PW 对数据进行降维，再进行常规卷积核的卷积，最后 PW 对数据进行升维。我们举个例子，方便我们了解：
在这里插入图片描述根据上图，我们来做个对比计算，假设输入 feature map 的维度为 256 维，要求输出维度也是 256 维。有以下两种操作：
直接使用 3x3 的卷积核。256 维的输入直接经过一个 3×3×256 的卷积层，输出一个 256 维的 feature map ，那么参数量为：256×3×3×256 = 589824 。
先经过 1x1 的卷积核，再经过 3x3 卷积核，最后经过一个 1x1 卷积核。 256 维的输入先经过一个 1×1×64 的卷积层，再经过一个 3x3x64 的卷积层，最后经过 1x1x256 的卷积层，则总参数量为：256×1×1×64 + 64×3×3×64 + 64×1×1×256 = 69632 。
经过两种方式的对比，我们可以很明显的看到后者的参数量远小于前者的。Bottleneck 的核心思想还是利用多个小卷积核替代一个大卷积核，利用 1x1 卷积核替代大的卷积核的一部分工作。

Depthwise Separable Conv

我们发现参数量还是很多，于是人们又想啊想，得出了 Depthwise Separable Conv 。这个注意最早是来自这篇论文 Design of Efficient Convolutional Layers using Single Intra-channel Convolution, Topological Subdivisioning and Spatial “Bottleneck” Structure ，后面被 Google 用在 MobileNet 和 Xception 中发扬光大。
大致的步骤是这样的：分别按不同通道进行一次卷积（生成输入通道数张 Feature Maps）- DW再将这些 Feature Maps 一起进行第二次卷积 - PW文字看起来有点抽象，我们用栗子来理解一下。
Depthwise Convolution
不同于常规卷积操作，Depthwise Convolution的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。上面所提到的常规卷积每个卷积核是同时操作输入图片的每个通道。
同样是对于一张5×5像素、三通道彩色输入图片（shape为5×5×3），Depthwise Convolution首先经过第一次卷积运算，不同于上面的常规卷积，DW完全是在二维平面内进行。卷积核的数量与上一层的通道数相同（通道和卷积核一一对应）。所以一个三通道的图像经过运算后生成了3个Feature map(如果有same padding则尺寸与输入层相同为5×5)，如下图所示。
在这里插入图片描述
Depthwise Convolution完成后的Feature map数量与输入层的通道数相同，无法扩展Feature map。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的feature信息。因此需要Pointwise Convolution来将这些Feature map进行组合生成新的Feature map。