Deep Residual Learning for Image Recognition
一、深度神经网络的 degradation 问题:
网络越深,训练误差和测试误差越大。这并不是由于梯度爆炸或者梯度消失,也不是由于过拟合导致。而是由于更深的网络学习和收敛更困难。

二、Residual Learning
不同于让网络直接学习期望的underlying mapping(标记为H(x)),而是让网络学习更简单的Residual mapping(标记为F(x))。原始期望的mapping则转化为:H(x) = F(x) + X,X表示Residual block 的输入,通过shortcut connection与F(x)按元素相加。

在极端情况下,如果underlying mapping是要学习identity mapping,相比于直接让多个级联非线性函数直接学习identity mapping,将resudual mapping置为0要更为简单。
三、网络结构


本文探讨了深度神经网络中遇到的degradation问题,并提出了一种新的学习方式——残差学习。不同于传统方法,残差学习让网络学习更简单的残差映射,而非直接学习复杂的底层映射。这种方法在极端情况下,如学习identity映射时,表现尤为出色。
2776

被折叠的 条评论
为什么被折叠?



