Resnet:
在2015年之前,人们有个信念,就是网络越深、越宽,表征能力就越强。所以训练误差应该是会随着网络的加深而逐渐变小的,而测试误差则不一定,因为过深的模型可能是过拟合的。
然而何恺明等人却发现,加深模型到一定程度时,测试误差和训练误差都要比浅的模型的要高,这就对原来的信念提出了挑战。他将这一发现称之为深层模型的退化现象。而Resnet通过残差学习,解决了大型网络(层数多)的退化问题。
工作原理:
目前有很多学者对ResNet发挥作用的原因进行了解释。
根据BP算法中的导数的链式法则,将该公式的求导过程展开。
得到:
可以看到残差网络不会出现梯度消失问题,深层网络的梯度可以很方便地传导到浅层,从降低了大型网络(层数多)的训练难度。
Resnet取得的效果: