什么是残差网络结构

最新推荐文章于 2025-11-24 14:49:36 发布

原创最新推荐文章于 2025-11-24 14:49:36 发布 · 825 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#1024程序员节 #人工智能

图像识别 and Resnet 网络拆解专栏收录该内容

30 篇文章

订阅专栏

大家好啊，我是董董灿。

在我刚开始学习AI算法时，有一次参加一个线下的讨论，有个西南大学的本科生，在做汇报时说到了残差网络具有很好的推理效果。

那时的我还未入门，像是听天书，听了半天没搞懂说的啥意思，但是却记住了残差这个词。

那么残差到底是什么呢？在神经网络中他又为什么那么重要呢？

1、残差网络和Resnet

经常读我文章的小伙伴可能指导，我之前写了很多拆解 resnet50 这个网络中算法原理的文章万字长文解析Resnet50的算法原理。

而残差网络在这一网络中就有很显著的作用。在很多学科中，残差指的是：预测值与实际值之间的误差。

而在残差网络中，大致也可以这么理解。只不过在神经网络结构中，残差有更加具体的表示，一般表示为残差块，如下图。

对于正常的神经网络，输入X，那么输出可以表示为F(x)，其中F就是神经网络逼近的一个函数。

而残差块的输出除了F(x)之外，还会加上原始输入，也就是说，残差块作为一个神经网络模块，它的输出为：F(x) + x。

在原始论文中，残差块的结构被叫作 short-cut结构，翻译成中文被叫做高速公路。

比如上图中，左侧是正常的神经网络层，一层层往下传，在右侧增加一条直连的线，如此一来，整个网络结构形成了一个残差结构。

原始输入可以顺着右侧的线，如跑高速一般，直接到达残差网络的终点，这就是残差结构。

2、为什么要增加残差结构

深度学习算法之所以区分传统的机器学习，一个关键点在与“深度”二字。

随着神经网络层数的不断增加，神经网络的深度就越深，网络学到的特征就会更加丰富。

但是，能无限制地加深么？肯定是不行的，原因在于不好训练。

神经网络训练的过程是不断与目标值进行拟合的过程，直到拟合的误差降低到人们的预期，那么久代表着神经网络训练完毕，一个AI就诞生了。

但是在训练过程中，数据的传递除了从前往后传之外，还需要将最后一层与目标值的误差往前传，从而在进行下一轮训练时，可以获得更小的误差，这一过程便是神经网络的反向传播。

在往回传的过程中，由于误差本身就很小，如果神经网络层数过多，在经过激活函数时，很容易发生误差传着传着就消失了，称为梯度消失。

梯度消失的原因有很多种，不好的激活函数、过深的网络层数等都有可能导致误差消失。

上一轮训练结果的误差传不回来，下一轮如何在上一轮的基础上进行进一步优化训练？结果就会导致怎么训练神经网络最终的结果都无法收敛。

AI根本训练不出来，这个时候残差就可以发挥作用。

想象一下，这个高速公路的存在，可以使得输入数据无损地通过。

如果左侧卷积层学习到的数据不够好，那么叠加上无损通过的原始数据，依然保留了原始数据，不至于丢掉原始数据。

而如果左侧卷积层学习到的效果很好，那么依然会保留着学习到的数据，下面的卷积层依然可以在这些数据基础上进一步学习优化。

反向传递也是一样，高速公路的存在，可以确保即使很小的误差也能传递过来，从而避免了梯度消失的发生。

有了残差结构，我们就可以把神经网络设计的更深一些，从而使得神经网络可以识别出更加丰富的特征。

自从有了残差结构，很多网络开始借鉴这种网络设计方法，甚至有些网络会直接把res block，也就是残差块当做一个网络单元来用，这样网络可以设计的更深，提取特征的效果也就更好。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董董灿是个攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。