深度学习经典网络:ResNet及其变体(ResNet v2)

本文详细介绍了ResNet v2的残差网络结构,重点讨论了恒等跳跃连接的重要性以及激活函数ReLU的使用。通过对比不同残差单元的设计,揭示了预激活(pre-activation)模型在优化和减轻过拟合方面的优势。ResNet v2通过恒等映射和预激活设计,解决了深度学习中的梯度消失问题,提高了网络的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ResNet v2:Identity Mappings in Deep Residual Networks

1 简介

  ResNet v1和ResNet v2的区别主要在于残差单元设计的差异,作者在对ResNet v1残差单元的分析及反向传播的推导中,当使用恒等映射(identity mappings)作为跳跃连接(skip connections)及信号pre-activation时,前向、反向传播的信号能直接从一个残差块传递到其他任意一个残差块。可以用公式1和公式2表示残差单元的工作过程,ResNet v2在设计残差单元的时候保证了恒等映射,也就是保证 h ( x l ) = x l h(x_{l})=x_{l} h(xl)=xl以及 f ( y l ) = y l f(y_{l})=y_{l} f(yl)=yl两个恒等映射。
y l = h ( x l ) + F ( x l , W l )           ( 1 ) y_{l}=h(x_{l})+\mathcal{F}(x_{l},\mathcal{W}_{l})\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(1) yl=h(xl)+F(xl,Wl)         (1)

x l + 1 = f ( y l ) )           ( 2 ) x_{l+1}=f(y_{l}))\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(2) xl+1=f(yl))         (2)

2 残差网络结构分析

具体分析参考:深度学习经典网络:ResNet及其变体(上)
  主要是在公式1和公式2的基础上推导出网络深层 L L L和浅层 l l l之间的前向以及反向梯度的关系,前向关系如公式3所示,反向梯度关系如公式4所示。从公式4可以看出任意深层与浅层之间是一个残差和的关系,从公式4中可以看出任意深层 L L L的梯度都能够传递给浅层 l l l,这就避免了梯度消失的问题。而所有的推导是建立在第一部分提到的两个恒等映射。作者设计的结构如图1所示, 从两个方面保证了恒等映射,一是图中灰色shortcut connection部分,除了必要的加法操作,不附带任何操作(当然在不同层之间如果输入和输出的维度不匹配时还是有1×1的卷积进行维度匹配,这相对于整个网络只是很小的一部分),二是将BatchNorm 和Relu放在卷积操作前面,作者称这种方式为‘pre-activation’ 。接下来作者对两个部分进行了分析。
x L = x l + ∑ i = 1 L − 1 F ( x i , W i )           ( 3 ) x_{L}=x_{l}+\sum_{i=1}^{L-1}\mathcal{F}(x_{i},\mathcal{W}_{i}) \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(3) xL=xl+i=1L1F(xi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值