ResNet分析

最新推荐文章于 2025-02-07 10:27:15 发布

Terrence_Z

最新推荐文章于 2025-02-07 10:27:15 发布

阅读量470

点赞数

分类专栏： Paper 文章标签：神经网络机器学习人工智能

原文链接：https://arxiv.org/abs/1512.03385

版权

Paper 专栏收录该内容

2 篇文章

订阅专栏

ResNet

Introduction

深度卷积神经网络曾在图像分类领域做出了重大突破。
深度网络可以吸收各种维度层次的特征，而这个特征的深度我们可以通过加深神经网络层数来得到。

我们知道网络深度是一个非常重要的影响网络性能的因素。很多的图像领域的神经网络模型也都是基于比较深层次的网络结构的。

但这样深层次的网络结构是否容易训练，容易学习样本分布呢？

出现的问题

大家应该也都知道，梯度爆炸和梯度消失的问题在深度学习中经常会出现，这极大的影响了我们训练的收敛性。但是这个问题在一些中间层或预处理层添加一些标准化操作就可以解决。

但另一个问题也出现了，那就是退化问题。当我们把网络层数加深之后，准确率开始慢慢变得饱和，但再增加层数之后，准确率会下降。但这个问题并不是由过拟合导致的，而且在我们添加更多的网络层之后，训练误差会随之上升。

这个退化问题表明，并不是所有的系统都是那么容易去优化的。让我们考虑一个浅层的结构，以及一个特殊的深层网络模型（是结构A加上更多的网络层）。
在这里插入图片描述
对于那个深层的网络模型，作者做了一个处理，就是在deeper part的layer全部做identity mapping，也就是恒等映射，shallower part 是跟对比的那个浅层模型相同的，这样的话，深层模型就不会比浅层模型产生更高的训练误差。

基于这个思想，deep residual learning framework就应运而生了。与传统的将堆叠层去学习样本分布不同，ResNet 是去学习残差的映射的。

残差学习

那为什么这个学习是残差学习呢？

我们是将堆叠层的学习目标改为残差F(x) = H(x) – x，但最终输出的feature map还是H(x) = F(x) + x，所以我们添加一个shortcut在堆叠层的输入之后，得到F(x) + x。

这里，在极端情况下，如果我们假设恒等映射是最优的情况，我们会更容易将残差去降低到0，而不是通过多层非线性层，去将输出接近identity mapping. 也就是说残差映射会比原先的映射要更容易优化，

我们这里可以把F(x) + x看作是一个前向神经网络加上一个短路连接。（也就是在ppt上展示的residual Unit。），短路连接通常会跳过一层或多层的网络层（在ResNet中，都是多层），而且这个shortcut connection是由恒等映射计算的，并且结果会与跳过的网络层输出结合起来，由于恒等映射不会添加任何的参数，而且也不会提高任何的计算复杂度。

如果我们将H(x)设为堆叠层需要去拟合的映射的话，如果非线性堆叠层能拟合H(x)，那也意味着非线性堆叠层能拟合残差方程H(x) – x，所以我们可以直接将非线性堆叠层的目标设为F(x) = H(x) – x。这样的话，就如我们之前所说，原先学习的目标就变为了F(x) + x。

$Y=F(X_i, \omega_i) + x$
这里F（x,wi）表示了需要学习的残差映射，比如在我们之前看到的Residual unit里，有两层网络加上一个shortcut connection。
这里 $\omega_2\sigma(\omega_1x)$
这里sigma代表relu function.