Deep Residual Learning for Image Recognition总结

本文探讨了ResNet-34算法的核心思想,解决了深层网络的退化问题。通过引入深度残差学习框架,利用shortcut连接简化了深层网络的学习过程,并详细介绍了不同情况下的shortcut实现方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

resnet-34算法实现:https://blog.youkuaiyun.com/weixin_43204128/article/details/89016579

第一:我们希望神经网络能够提取出图像上low/mid/high各种level的特征,深层网络能够做到这一点,而且提取出来的特征越是抽象,越能表达出图像的语义信息。

第二:但是一味的追求深层网络,就会出现梯度弥散/梯度爆炸,解决这个问题的方法:归一初始化(normalized initialization)和中间归一化(intermediate normalization),这使得数十层的网络在反向传播的梯度下降算法中得以收敛。

第三:然而深度网络收敛了,另一个问题出现了:退化。这并不是过拟合,因为过拟合应该在训练集上的拟合程度很高,而退化则是在训练集上出现了饱和现象,在训练集上拟合程度反而变低。
如下图:
在这里插入图片描述
退化问题说明了并非所有的系统都是很容易优化的,所以接下来主要解决退化的问题!

第一:假设x是输入,现在通过几层非线性堆叠层来拟合所需的底层映射(desired underlying mapping)H(x),如果这几层非线性堆叠层能以恒等映射来构建,一个更深模型的训练错误率不应该比它对应的浅层模型的更大。退化问题表明了,求解器在通过多个非线性层来估计恒等映射上可能是存在困难的。

第二:论文提出一种“深度残差学习框架”,来明确的让非线性堆叠层学习残差函数“F(x)=H(x)-x”,而不是直接学习H(x),因此原来的映射转化为”F(x)+x“。在极端情况下,恒等映射x是最优的,将残差函数变为0比在非线性堆叠层上学习一个恒等映射容易。在实际情况下,恒等映射不太可能达到最优,如果最优函数更趋近于恒等映射而不是0映射,那么对于求解器来说寻找关于恒等映射的扰动比学习一个新的函数要容易的多。

第三:”F(x)+x“通过shortcut连接,shortcut 连接只是简单的执行恒等映射,再将它们的输出和堆叠层的输出叠加在一起(Fig.2)。恒等的shortcut连接并不增加额外的参数和计算复杂度。

在这里插入图片描述
第四:如果输入和输出的维度相同时,可以直接使用恒等shortcuts。当维度增加时(Fig.3中的虚线部分),考虑两个选项:
(A) shortcut仍然使用恒等映射,在增加的维度上使用0来填充,这样做不会增加额外的参数; (tf.pad)
(B) (通过1*1的卷积)来使维度保持一致。

在这里插入图片描述
Fig.3 对应于ImageNet的网络框架举例。 左:VGG-19模型 (196亿个FLOPs)作为参考。中:plain网络,含有34个参数层(36 亿个FLOPs)。右:残差网络,含有34个参数层(36亿个FLOPs)。虚线表示的shortcuts增加了维度。

第五:实验的过程中,每一层在激活之前使用batch normalization来防止梯度消失/梯度爆炸;残差连接使用了用0填充的办法;没有使用maxout/dropout。

第六:在更深的层次中,由于时间的限制,需要修改残差块的结构:
在这里插入图片描述
对于每一个残差函数F,我们使用了三个叠加层而不是两个(Fig.5)。 这三层分别是1×1、3×3 和1×1 的卷积,1×1 的层主要负责减少然后增加(恢复)通道数,通道数减小,输入到3×3卷积层的参数也会变少。剩下的3×3的层来减少输入和输出的维度。

deep residual learning for image recognition是一种用于图像识别的深度残差学习方法。该方法通过引入残差块(residual block)来构建深度神经网络,以解决深度网络训练过程中的梯度消失和梯度爆炸等问题。 在传统的深度学习网络中,网络层数增加时,随之带来的问题是梯度消失和梯度爆炸。这意味着在网络中进行反向传播时,梯度会变得非常小或非常大,导致网络训练变得困难。deep residual learning则使用了残差连接(residual connection)来解决这一问题。 在残差块中,输入特征图被直接连接到输出特征图上,从而允许网络直接学习输入与输出之间的残差。这样一来,即使网络层数增加,也可以保持梯度相对稳定,加速网络训练的过程。另外,通过残差连接,网络也可以更好地捕获图像中的细节和不同尺度的特征。 使用deep residual learning方法进行图像识别时,我们可以通过在网络中堆叠多个残差块来增加网络的深度。这样,网络可以更好地提取图像中的特征,并在训练过程中学习到更复杂的表示。通过大规模图像数据训练,deep residual learning可以在很多图像识别任务中达到甚至超过人类表现的准确性。 总之,deep residual learning for image recognition是一种利用残差连接解决梯度消失和梯度爆炸问题的深度学习方法,通过增加网络深度并利用残差学习,在图像识别任务中获得了突破性的表现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值