引言
深度网络以端到端多层的方式自然地集成了低/中/高级特征以及分类器,特征可以由网络的深度来丰富,因此ImageNet竞赛的参赛模型都趋向于“非常深”——16 层 到30层 。许多其它的视觉识别任务的都得益于非常深的模型。在深度的重要性的驱使下,出现了一个新的问题,梯度消失/梯度爆炸从一开始便阻碍了模型的收敛。初始归一化(normalized initialization)和中间归一化(intermediate normalization)在很大程度上解决了这一问题,它使得数十层的网络在反向传播的随机梯度下降(SGD)上能够收敛。当深层网络能够收敛时,一个退化问题又出现了:随着网络深度的增加,准确率达到饱和(不足为奇)然后迅速退化。意外的是,这种退化并不是由过拟合造成的,并且在一个合理的深度模型中增加更多的层却导致了更高的错误率。图1展示了一个典型的例子:
退化的出现表明了并非所有的系统都是很容易优化的。对于更深的模型,这有一种通过构建的解决方案:恒等映射(identity mapping)来构建增加的层,而其它层直接从浅层模型中复制而来。这个构建的解决方案也表明一个更深的模型不应当产生比它的浅层版本更高的训练错误率。
本文提出了一种深度残差学习框架来解决这个退化问题,使得即使在网络层数很深(甚至在1000多层)的情况下,网络依然可以得到很好的性能与效率。
相关工作
**Residual Represent