残差网络(Residual Network,ResNet)原理与结构概述

原创

已于 2022-10-26 21:09:06 修改 · 6.5w 阅读

400 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

于 2022-10-26 21:08:23 首次发布

本文围绕残差网络展开，介绍其为解决梯度消失或爆炸问题而出现。阐述了模型原理，即学习输入与输出的差异；说明了模型结构，由多层ResNet block堆叠而成；还提及ResNet block的其他结构、跳跃连接等概念，最后给出算法实现示例，总结其能让网络向更深层发展。

残差网络是为了解决模型层数增加时出现梯度消失或梯度爆炸的问题而出现的。传统的神经网络中，尤其是图像处理方面，往往使用非常多的卷积层、池化层等，每一层都是从前一层提取特征，所以随着层数增加一般会出现退化等问题。残差网络采取跳跃连接的方法避免了深层神经网络带来的一系列问题。

一：对模型原理与优点的理解

首先，我们把网络层看成是映射函数。(1)在传统的前馈网络中，网络中堆叠的层可以将输入x映射为F(x)，这一整体网络的输出为H(x)，F(x)=H(x)。但是对于恒等映射函数f(x)=x，即网络的输入与输出相等，直接让这样的层去拟合这样的恒等映射函数会很困难，不过f(x)=0还是比较容易训练拟合的。(2)所以我们可以让输出H(x)=F(x)+x，这样如果整体网络H(x)需要是恒等映射，只需要把堆叠层拟合成F(x)=0即可。

从另一角度考虑，在以往的网络中，都试图通过堆叠不同的层找到可将输入x映射为输出H(x)的函数，而残差网络的目的并不是学习x到H(x)的映射，而是x与H(x)的不同，这也正是“残差”一词名称由来。残差F(x)=H(x)-x，所以我们尝试学习F(x)+x，而不是像(1)直接学习H(x)。（这样解释或许有些牵强，但事实的确如此。）

当然，还有一种说法是拟合H(x)-x与（1）中那样直接拟合F(x)相比更简单，这和开始部分提到的恒等映射函数不好优化这种说法是一致的。