Inception-V1（Going deeper with convolutions）

最新推荐文章于 2025-03-12 04:10:48 发布

原创

最新推荐文章于 2025-03-12 04:10:48 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #卷积

GoogLeNet（又称Inception模型）是谷歌提出的一种深度神经网络架构，旨在减少计算量和防止过拟合。通过使用1x1卷积进行通道降维和信息聚集，结合不同尺度的卷积与池化，Inception模型能有效捕获多尺度特征。网络结构中，Inception模块的重复应用允许在网络深度和宽度上增加，同时保持计算效率。此外，模型通过辅助分类器增强梯度传播，提高训练性能。在ILSVRC2014比赛中，GoogLeNet取得了分类挑战的第一名，展示了其在深度学习领域的卓越性能。

GoogleNet 模型

随着神经网络层数的加深，有不可避免的带来过拟合和计算量增大的困扰，谷歌团队为了减少计算量和避免过拟合，提出了Inception模型，也叫作 GoogLeNet。并在2014年，ImageNet挑战赛(ILSVRC14)中，GoogLeNet获得了第一名。GoogLeNet模型结构的特点是网络层数更深了。随着谷歌团队的研究，Inception历经了V1、V2、V3、V4等多个版本的发展

1. 思想

Inception 以降低参数量为目的，设计了一个稀疏网络结构，但是能够产生稠密的数据，既能增加神经网络表现，又能保证计算资源使用效率的网络结构。

2. 模型结构

GoogleNet虽然降低了维度，计算更加容易了，但是缺点是每一层的卷积都是上一层的输出所得来的，这就使最后一层的卷积所需要的的计算量变得非常大，因此谷歌对其进行了改善，有了正式版的 Inception-V1模型。

Inception-V1精简版总结

	Inception V1模块提出可以使网络变宽，在保证模型质量的前提下，减少参数个数，提取高维特征。

基本思想

首先通过1x1卷积来降低通道数把信息聚集
再进行不同尺度的特征提取以及池化，得到多个尺度的信息
最后将特征进行叠加输出
（官方说法：可以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能）

主要过程：

在3x3卷积和5x5卷积前面、3x3池化后面添加1x1卷积，将信息聚集且可以有效减少参数量（称为瓶颈层）；
下一层block就包含1x1卷积，3x3卷积，5x5卷积，3x3池化(使用这样的尺寸不是必需的，可以根据需要进行调整)。这样，网络中每一层都能学习到“稀疏”（3x3、5x5）或“不稀疏”（1x1）的特征，既增加了网络的宽度，也增加了网络对尺度的适应性；
通过按深度叠加（deep concat）在每个block后合成特征，获得非线性属性。
注：在进行卷积之后都需要进行ReLU激活，这里默认未注明。

Inception-V1（Going deeper with convolutions）

Abstract

网络的主要特点是在网络结构内部提高资源利用率
允许增加网络的深度和宽度，同时保持计算预算恒定
基于 Hebbian principle and the intuition of multi-scale processing

1 Introduction

目标检测的最大收益不是单独使用深层网络或更大的模型，而是来自深层架构和经典计算机视觉的协同作用，如 Girshick 等人的 R-CNN 算法。
随着移动和嵌入式计算的不断发展，我们算法的效率——尤其是它们的能力和内存使用——变得越来越重要。
在我们的例子中，“deep”这个词有两种不同的含义：首先，我们以“Inception module”的形式引入了一个新的组织层次，还有更直接的增加网络深度的意义。
在本文中，我们将