深度学习常用模型（一）：ResNet

最新推荐文章于 2025-05-28 19:29:36 发布

left--bank

最新推荐文章于 2025-05-28 19:29:36 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习人工智能文章标签：神经网络机器学习深度学习 tensorflow

本文链接：https://blog.youkuaiyun.com/weixin_42892235/article/details/108072830

本文介绍了ResNet（残差网络）的出现背景，解释了网络退化现象，并探讨了ResNet如何通过残差块解决这一问题。ResNet通过直接映射保留信息，确保深层网络至少与浅层网络具有同等表现。文章还详细阐述了残差块的结构，包括1x1卷积的使用，以及激活函数位置的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.RestNet是用来干嘛的

在VGG中，卷积网络达到了19层，在GoogLeNet中，网络史无前例的达到了22层。那么，网络的精度会随着网络的层数增多而增多吗？在深度学习中，网络层数增多一般会伴着下面几个问题：

1.计算资源的消耗
2.模型容易过拟合
3.梯度消失/梯度爆炸问题的产生

问题1可以通过GPU集群来解决，对于一个企业资源并不是很大的问题；问题2的过拟合通过采集海量数据，并配合Dropout正则化等方法也可以有效避免；问题3通过Batch Normalization也可以避免。貌似我们只要无脑的增加网络的层数，我们就能从此获益，但实验数据给了我们当头一棒。

我们发现，随着网络层数的增加，网络发生了退化（degradation）的现象：随着网络层数的增多，训练集loss逐渐下降，然后趋于饱和，当你再增加网络深度的话，训练集loss反而会增大。注意这并不是过拟合，因为在过拟合中训练loss是一直减小的。

当网络退化时，浅层网络能够达到比深层网络更好的训练效果，这时如果我们把低层的特征传到高层，那么效果应该至少不比浅层的网络效果差，或者说如果一个VGG-100网络在第98层使用的是和VGG-16第14层一模一样的特征，那么VGG-100的效果应该会和VGG-16的效果相同。所以，我们可以在VGG-100的98层和14层之间添加一条直接映射（Identity Mapping）来达到此效果。

从信息论的角度讲，由于DPI（数据处理不等式）的存在，在前向传输的过程中，随着层数的加深，Feature Map包含的图像信息会逐层减少，而ResNet的直接映射的加入，保证了 $l + 1$ 层的网络一定比 $l$ 层包含更多的图像信息。

基于这种使用直接映射来连接网络不同层直接的思想，残差网络应运而生。

2.那么，我们如何来实现残差网络呢？

首先我们要了解残差块的概念：

2.1残差块

残差网络是由一系列残差块组成的（图1）。一个残差块可以用表示为：
在这里插入图片描述
残差块分成两部分直接映射部分和残差部分。 $x_l$ 是直接映射，反应在图1中是左边的曲线； $F(x_l,W_l)$ 是残差部分，一般由两个或者三个卷积操作构成，即图1中右侧包含卷积的部分。

图1中的Weight在卷积网络中是指卷