普通网络:
对损失函数进行求导
(1)
残差网络
对损失函数进行求导
(2)
分别两个(1)(2)我们可以发现:
(1)中,当有几个偏导很小的时候,梯度会迅速趋近于0,但是(2)中,要趋近于0,条件比较苛刻,要么前面一部分趋近0,要么后一部分趋近-1
总的来说,残差网络并不是解决了梯度消失问题,而是在一定程度上规避了问题,让其很难梯度消失。
注意:
1.神经网络的权重更新是沿着梯度的负方向,当没有梯度的时候,更新就会停滞,或者当梯度很大的时候,有可能会跳过最优解,这就是梯度消失和梯度爆炸对神经网络的“危害”
2.残差网络使得网络更深,而更深的网络拥有更大的感受野,感受野越大,越能捕获图像中的细节信息。残差网络是一个双支路,他可以融合两个支路的特征,使得融合后的特征图有更强的表达能力,说白了就是使得融合后的特征图有更大的感受野!