1. introduction
1.1 问题的提出
越深越好
有实验证明网络越深,效果越好(深度神经网络通过层的堆叠,集成了low/mid/high level的特征,层数越深level越丰富)
深带来的梯度爆炸问题
主要通过normalized initialization和intermediate normalization layer,让网络可以达到数十层
解决了梯度爆炸,网络可收敛,但是又面临退化问题
退化问题就是:当前模型的深度已经是拟合数据的最优深度(精度达到饱和),再额外加layer就会导致退化(训练精度会下降,并不是过拟合导致的)。我们希望的是能够有identity mapping 使得在精度饱和之后,后面添加的层都是copy from the shallower layer..
1.2 解决方案---ResNet
ResNet的优势
(1) 学习残差(精度饱和后使其=0)比identity mapping更易学,所以易于优化,解决深度加深的退化问题
(2) 可以非常深,而且复杂度更小
ResNet主要的思想