第二章深度卷积模型：案例研究_增量深度卷积计算模型-优快云博客

本文深入探讨卷积神经网络的典型模型，包括LeNet-5、AlexNet和VGG-16。重点讲解残差网络的结构与原理，解释其如何通过skip connection解决深度学习中的梯度消失问题。此外，还介绍了1×1卷积在网络中的作用，以及Inception网络的设计思想。最后，讨论了数据增强在提高模型性能中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 典型网络模型

本章将会介绍几个典型的卷积神经网络模型来帮助我们加深对知识的了解。

1 典型网络模型

LeNet-5提出于1998年，它是第一个成功应用于数字识别问题的卷积神经网络。

上图展示了 LeNet-5模型的结构，其顺序一般是CONV layer->POOL layer->CONV layer->POOL layer->FC layer->FC layer->OUTPUT layer。这个模型包含了大约6万个参数。

上图是AlexNet模型结构，类似于LeNet-5模型，其包含了大约六千万个参数。

这是VGG-16模型，它的卷积核尺寸为 $3\times 3$ ，步长为1，采用same padding，使用最大池化，尺寸为 $2\times 2$ ，池化步长为2 ，有多达一亿三千万个参数。

2 残差网络

1 残差网络结构

神经网络的层数越多，由于梯度爆炸和梯度消失，整个模型也就越难训练，现在有一种解决方法，类似于数据旁路技术，人为的让神经网络某些层跳过下一层的神经元链接，隔层相连，弱化相邻层之间的联系，这种神经网络就是残差网络。

残差网络由许多隔层相连的神经元模块，叫做残差块，单个残差块的结构如下所示：

图像中很明显的看出，skip connection直接建立了 $a^{[l]}$ 与 $a^{[l+2]}$ 之间的联系：

实践证明这种模型对于训练非常深的神经网络会有很好的效果，整个网络结构如下所示

与之对应的我们称非残差网络为普通网络，与普通网络相比残差网络有效避免了梯度爆炸和梯度消失的发生

2 残差网络原理

从上图中可以看出，输入x经过很多层神经网络后输出 $a^{[l]}$ ,此时的权重参数W和偏置参数b均已趋近于零，因此由

很明显即使发生了梯度消失，残差网络同样可以建立起从 $a^{[l]}$ 到 $a^{[l+2]}$ 的直接线性联系，削弱了某些神经元的联系，从而使模型本身可以容忍更深层次的神经网络了，当然，如果忽略short cut，也可以训练得到非线性关系。

为了保证 $a^{[l]}$ 到 $a^{[l+2]}$ 的维度相同，需要引入矩阵 $W_{s}$ 与 $a^{[l]}$ 相乘从而与 $a^{[l+2]}$ 的维度保持一致，对于矩阵 $W_{s}$ 的获取，既可以作为学习参数通过训练得到，也可以作为单位矩阵，不经过训练，使其仅仅作为截断或补零作用得到。