Paper : Identity Mappings in Deep Residual Networks
Code : official
摘要
PreActResNet其实只是将Conv-BN-ReLU的顺序换了一下,使得存在一条通路从第一个ResNet Block到最后一个ResNet Block,中间不经过非线性变换ReLU,提高模型的准确率。
网络结构

左侧的网络结构是ResNet中提出的网络结构,是继承自VggNet的经典的Conv-BN-ReLU的结构,由于激活函数是在Conv层之前,因此也被称为PostActResNet。而右侧的网络结构是该论文中提出的新型的网络结构,在之前的一篇blog中分析identity shortcut connection的作用时曾经有过如下假设
… 则在有效的反向传播的过程中,ReLU可以看作是一个恒等映射 …
而PreActResNet的网络结构,也就是激活函数放在Conv层之前的结构,不需要通过近似即可满足该条假设,进一步增强了网络结构中shortcut的恒等性。两种结构的错误率变化如下

可以看出,对于深度较深的网络结构,PreActResNet在收敛速度和准确率上都有较好的表现。事实上,我们有更多种排列方式可以选择

下面是针对各种shortcut连接方式的实验数据

论文里提到,shortcut连接中的操作(缩放、门控、1*1 的卷积层,dropout)都会阻碍信息的传递,以致于对优化造成困难。虽然1*1的卷积捷径连接引入了更多的参数,本应该比恒等捷径连接具有更加强大的表达能力。但是它的效果并不好,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。
核心观点
- 通过改变激活层的位置,使网络模型的shortcut connection的恒等性进一步加强,可以改善残差神经网络的表现。一条由恒等函数组成的干净的shortcut connection是对于ResNet来说是至关重要的。
PreActResNet通过调整激活层位置,增强shortcutconnection的恒等性,提升残差网络模型的收敛速度和准确率。实验证明,恒等函数组成的shortcutconnection对ResNet至关重要。
836

被折叠的 条评论
为什么被折叠?



