背景
- 神经网络越深越难以训练
- 堆叠网络层会造成梯度消失与梯度爆炸,阻止收敛。一般的解决办法是通过normalized initialization和intermediate normalization layers,保证几十层的网络通过反向传播的SGD收敛。
- 当网络层数增加,准确率会达到饱和,然后迅速下降。这不是因为过拟合,而是因为增加更多层会造成更高的训练错误率。
创新
- 提出deep residual leaning framework,网络更深,但是复杂度更低,减轻了网络的训练;易于优化;并且在ImageNet的检测与定位,COCO的检测与分割上获得了更高的准确率。
- 考虑浅层的架构和增加更多层的深层副本:增加的层叫做identity mapping,其他层是从学到的浅层的模型复制的
- shortcut connections:跳过一层或多层网络,并将identity mapping的输出叠加到stacked layers的输出。identity shortcut connections既不会增加额外的参数,也不会增加计算复杂度,甚至不用修改solvers就可以通过反向传播SGD进行端到端训练。