什么是残差网络结构

大家好啊,我是董董灿。

在我刚开始学习AI算法时,有一次参加一个线下的讨论,有个西南大学的本科生,在做汇报时说到了残差网络具有很好的推理效果。

那时的我还未入门,像是听天书,听了半天没搞懂说的啥意思,但是却记住了残差这个词。

那么残差到底是什么呢?在神经网络中他又为什么那么重要呢?

1、残差网络和Resnet

经常读我文章的小伙伴可能指导,我之前写了很多拆解 resnet50 这个网络中算法原理的文章万字长文解析Resnet50的算法原理

而残差网络在这一网络中就有很显著的作用。在很多学科中,残差指的是:预测值与实际值之间的误差。

而在残差网络中,大致也可以这么理解。只不过在神经网络结构中,残差有更加具体的表示,一般表示为残差块,如下图。

图片

对于正常的神经网络,输入X,那么输出可以表示为F(x),其中F就是神经网络逼近的一个函数。

而残差块的输出除了F(x)之外,还会加上原始输入,也就是说,残差块作为一个神经网络模块,它的输出为:F(x) + x。

在原始论文中,残差块的结构被叫作 short-cut结构,翻译成中文被叫做高速公路。

比如上图中,左侧是正常的神经网络层,一层层往下传,在右侧增加一条直连的线,如此一来,整个网络结构形成了一个残差结构。

原始输入可以顺着右侧的线,如跑高速一般,直接到达残差网络的终点,这就是残差结构。

2、为什么要增加残差结构

深度学习算法之所以区分传统的机器学习,一个关键点在与“深度”二字。

随着神经网络层数的不断增加,神经网络的深度就越深,网络学到的特征就会更加丰富。

但是,能无限制地加深么?肯定是不行的,原因在于不好训练。

神经网络训练的过程是不断与目标值进行拟合的过程,直到拟合的误差降低到人们的预期,那么久代表着神经网络训练完毕,一个AI就诞生了。

但是在训练过程中,数据的传递除了从前往后传之外,还需要将最后一层与目标值的误差往前传,从而在进行下一轮训练时,可以获得更小的误差,这一过程便是神经网络的反向传播

在往回传的过程中,由于误差本身就很小,如果神经网络层数过多,在经过激活函数时,很容易发生误差传着传着就消失了,称为梯度消失

梯度消失的原因有很多种,不好的激活函数、过深的网络层数等都有可能导致误差消失。

上一轮训练结果的误差传不回来,下一轮如何在上一轮的基础上进行进一步优化训练?结果就会导致怎么训练神经网络最终的结果都无法收敛。

AI根本训练不出来,这个时候残差就可以发挥作用。

想象一下,这个高速公路的存在,可以使得输入数据无损地通过。

如果左侧卷积层学习到的数据不够好,那么叠加上无损通过的原始数据,依然保留了原始数据,不至于丢掉原始数据。

而如果左侧卷积层学习到的效果很好,那么依然会保留着学习到的数据,下面的卷积层依然可以在这些数据基础上进一步学习优化。

反向传递也是一样,高速公路的存在,可以确保即使很小的误差也能传递过来,从而避免了梯度消失的发生。

有了残差结构,我们就可以把神经网络设计的更深一些,从而使得神经网络可以识别出更加丰富的特征。

自从有了残差结构,很多网络开始借鉴这种网络设计方法,甚至有些网络会直接把res block,也就是残差块当做一个网络单元来用,这样网络可以设计的更深,提取特征的效果也就更好。

### Residual Network Architecture Structure 残差网络(ResNet, Residual Networks)是一种通过引入跳过连接来解决深层神经网络训练过程中梯度消失问题的有效方法[^1]。其核心思想是在传统的前馈网络基础上增加恒等映射路径,使得每一层不仅可以学习到输入数据的变化部分,还可以保留原始输入的信息。 #### 基本单元:Residual Block 残差块是构成整个残差网络的基础模块。它由两个或多个卷积层组成,并附加一条从输入直接通往输出的旁路通道。这条旁路允许信息绕过某些层传递至后续处理阶段,从而缓解因层数加深而导致优化困难的现象[^2]。 具体而言,在一个标准residual block中: - 输入先经过一系列常规操作如卷积(Convolution),批量归一化(Batch Normalization)以及激活函数(Activation Function); - 同时存在另一条简单路线仅复制原样传送到最终加法运算之前的位置; - 这两股流随后被相加以形成最终输出结果。 这种设计让每一对相邻层之间不仅能够表达复杂变换关系还能保持原有特性不变的能力变得可能,极大地促进了极深模型的成功构建与发展进程。 以下是Python实现的一个基本版本: ```python import tensorflow as tf from tensorflow.keras import layers def residual_block(x, filters, kernel_size=3, stride=1, conv_shortcut=False, name=None): bn_axis = 3 if tf.keras.backend.image_data_format() == 'channels_last' else 1 if conv_shortcut is True: shortcut = layers.Conv2D(filters, 1, strides=stride, use_bias=False)(x) shortcut = layers.BatchNormalization(axis=bn_axis)(shortcut) else: shortcut = x x = layers.Conv2D(filters, kernel_size, padding='same', strides=stride, use_bias=False)(x) x = layers.BatchNormalization(axis=bn_axis)(x) x = layers.Activation('relu')(x) x = layers.Conv2D(filters, kernel_size, padding='same', use_bias=False)(x) x = layers.BatchNormalization(axis=bn_axis)(x) x = layers.Add()([shortcut, x]) x = layers.Activation('relu')(x) return x ``` 上述代码定义了一个通用型的残差块组件`residual_block()` ,其中包含了可选参数用于控制快捷方式是否采用额外卷积操作(`conv_shortcut`)等情况下的灵活性调整选项设置等功能特点描述说明文档等内容编写完成之后再提交给相关人员审核确认无误后再正式投入使用当中去执行相应任务目标达成预期效果即可结束本次讨论交流环节活动流程安排计划表如下所示图示意图表示形式呈现出来供大家参考借鉴学习模仿效仿实践运用推广普及开来让更多的人受益匪浅感激不尽谢谢大家的支持配合共同努力奋斗前进吧!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董董灿是个攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值