Resnet V2论文阅读和代码解析

本文详细解读ResNet V2论文,探讨等式连接的重要性,分析深度残差网络,解释为何前激活结构能提升训练效果,并提供代码解析。通过实验,证明了在shortcut路径上保持等式连接对于优化和防止过拟合的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

论文阅读

代码解析

小结

 

论文阅读

1.介绍

在Resnet V1的论文中介绍的‘Residual Units'可以用公式表示如下:

x_l表示这个unit的输入,x_{l+1}表示这个unit的输出,FF是残差函数,resnet V1的论文中建议h(x_l) = x_lf是RELU。

h(x_l) = x_l是一个很关键的选择,能让网络表现不错的效果。

在这篇文章中,作者会研究信息传播的路径对结果的影响。如果h(x_l)f(y_l)都是等式映射,那么信号会直接从一个单元传播给另一个单元。作者的经验发现如果h(x_l)f(y_l)越接近等式,那么网络训练起来会更加容易。

作者分析和比较了各种形式的h(x_l),比如缩放,比如1x1的卷积计算等,都没有h(x_l) = x_l收敛速度快,loss值降得更低。这个实验表明更干净的信息传递通道可以使网络更容易接近最优值。

而为了构建f(y_l) = y_l的结构,作者将激活函数调整了位置,使用先激活,而不是之前的后激活,这样就得到了一种新的残差网络结构,而且这个结构取得了不错的成绩。

(a)是原来的残差结构,(b)是新的残差结构。可以看到改进后是先进行BN和RELU计算,然后再用weight进行计算。

2.分析深度残差网络

对于原始的残差单元h(x_l) = x_l,如果f(y_l) = y_l,那么x_{l+1} \equiv y_l,那么公式可以变成

将所有的x_l的值都带入,可以得到

这个公式显示了一些属性:

  • 任意深度的x_L都可以由x_l加上一个残差公式组成,所以就意味着x_Lx_l之间就有残差关系
  • x_L = x_0 + \sum_{0}^{L-1}F(X_i, W_i)公式也成立,这表明
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值