Xception：Deep Learning with Depthwise Separable Convolutions论文阅读解释

最新推荐文章于 2025-06-05 09:31:33 发布

Albert-Shi

最新推荐文章于 2025-06-05 09:31:33 发布

阅读量3.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习语义分割文章标签：深度可分卷积语义分割深度学习

本文链接：https://blog.youkuaiyun.com/albertshi12/article/details/81303245

本文介绍了Xception网络，它是基于深度可分卷积的Inception模块的替代方案，旨在更高效地利用模型参数。Xception在ImageNet上表现优于Inception V3，并在更大规模的JFT数据集上取得显著优势。文章深入探讨了深度可分卷积的原理，以及其与Inception模块的关系。通过实验，作者证明了深度可分卷积的有效性，并指出其在未来卷积神经网络设计中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://arxiv.org/abs/1610.02357

声明：本文属于个人阅读论文时理解的中文意思，并不是对每个单词的翻译，如有错误，敬请谅解。欢迎大家的指点。

摘要

在卷积神经网络中，我们将Incpetion模块解释为规则卷积到depthwise separable convolutions操作（一个depthwise convolution后面跟一个pointwise convolution）中间的那个换代技术。从这个角度来看，一个depthwise separable convolution可以理解为一个具有最大数量towers的inception模块。受Inception的启发，这个观察引导我们提出了一个新颖的深度卷积神经网络架构，Inception模块已经被depthwise separable convolutions替代。我们展现的这个架构，被命名为Xception，在ImageNet数据集上（Inception V3就是为其设计的）比Inception V3稍微优秀，并且在包含3.5亿张图片和17000个类的更大的图像分类数据集上显著优于Inception V3。因为Xception架构和Inception V3又相同的参数数量，因此性能上的收益不在于模型压缩，而是由于更高效地使用模型参数。

1 简介

近年来，在计算机视觉中，卷积神经网络已经成为主要的算法，设计他们的方法一直是一个相当受关注的主题。卷积神经网络设计的历史开始于LeNet风格的模型，该模型就是简单的堆叠：为了特征提取的卷积层和为了空间降采样的空间最大池化层。在2012年，这个想法被AlexNet架构重新定义，其中卷积操作在最大池化操作之间重复多次，允许网络在每个空间尺度上学习到更丰富的特征。接下来的一种趋势就是网络变得越来越深，主要由ILSVRC竞赛驱动；首先是2013年的Zeiler和Fergus提出ZFNet，然后是2014年的VGG架构和GoogLeNet，随后有2015年ResNet、2016年DenseNet、2017年SENet。

在这一点上，出现了一种新的网络架构——在2014年作为GoogLeNet（Inception V1）被Szegedy等人介绍的Inception架构，随后被改进为Inception V2和Inception V3，以及最近的Inception-ResNet。Inception本身被早期的Network-In-Network架构所鼓舞。自从Inception首次被介绍，Inception一直是ImageNet数据集上表现最佳的模型之一，和谷歌使用的内部数据集性能一样好，特别是JFT。

Inception风格的模型的基本构建块是Inception模块，其中存在几个不同的版本。图1我们展示一个标准的Inception模块，正如在Inception V3架构中所示的一样。一个Inception模型可以被理解为这样模块的堆叠。这与早期的VGG风格的网络不同，VGG是简单卷积层的堆叠。

虽然Inception模块在概念上和卷积（它们是卷积特征提取器）相似，但是它们在经验上似乎能够用较少的参数学习到更丰富的表示。他们是如何工作的，它们与标准卷积有何不同？在Inception之后有哪些设计策略？

1.1 Inception假设

一个卷积层试图学习一个3D空间的过滤器，其具有2个空间维度（宽度和高度）和1个通道维度；因此，一个单独的卷积核的任务是同时映射交叉通道相关分析和空间相关分析（个人理解不同通道之间的相关性就是交叉通道相关性分析，一个通道的相关性就是空间相关分析）。

Inception模块背后的思想是通过明确地因式分解将其分解为一系列独立的考虑交叉通道相关性和空间相关性操作，使这个过程更容易，更有效。更准确地说，标准的Inception模块首先通过一组1*1卷积考虑交叉通道相关性，将输入数据映射到小于原始输入空间的3或4个单独的空间，然后通过3*3或5*5卷积映射这些较小的3D空间中的所有相关性。如图1所示。实际上，Inception背后的基本假设使交叉通道相关性和空间相关性事充分解耦的，最好不要将它们联合起来。（1*1卷积的三个作用：1、实现跨通道的交互和信息（特征）整合；2、进行卷积核（特征）通道数的升维和降维；3、减少卷积核参数。具体请看：https://blog.youkuaiyun.com/wonengguwozai/article/details/72980828）

考虑一个Inception模块的简化版本，仅仅使用一种大小的卷积（如3*3），并且不使用平均池化塔，如图2所示。这个Inception模块可以重新表示为一个大的1*1卷积，后面跟着空间卷积，空间卷积在输出通道的非重叠片段上运行，如图3所示。这个观察很自然的提出这个问题：在分段的过程中什么是