目录
论文阅读
代码解析
小结
论文阅读
1.介绍
在Resnet V1的论文中介绍的‘Residual Units'可以用公式表示如下:
表示这个unit的输入,
表示这个unit的输出,
是残差函数,resnet V1的论文中建议
,
是RELU。
是一个很关键的选择,能让网络表现不错的效果。
在这篇文章中,作者会研究信息传播的路径对结果的影响。如果和
都是等式映射,那么信号会直接从一个单元传播给另一个单元。作者的经验发现如果
和
越接近等式,那么网络训练起来会更加容易。
作者分析和比较了各种形式的,比如缩放,比如1x1的卷积计算等,都没有
收敛速度快,loss值降得更低。这个实验表明更干净的信息传递通道可以使网络更容易接近最优值。
而为了构建的结构,作者将激活函数调整了位置,使用先激活,而不是之前的后激活,这样就得到了一种新的残差网络结构,而且这个结构取得了不错的成绩。
(a)是原来的残差结构,(b)是新的残差结构。可以看到改进后是先进行BN和RELU计算,然后再用weight进行计算。
2.分析深度残差网络
对于原始的残差单元,如果
,那么
,那么公式可以变成
将所有的的值都带入,可以得到
这个公式显示了一些属性:
- 任意深度的
都可以由
加上一个残差公式组成,所以就意味着
和
之间就有残差关系
公式也成立,这表明