Andreas Veit et al. Residual Networks Behave Like Ensembles of Relatively Shallow Networks. NIPS’16.
Residual Network (ResNet) 在图像、语音任务上都取得了巨大的成功,是继 ReLU, Dropout, Batch Normalization 后,深度学习上又一个 milestone。一般认为,ResNet 通过引入 skip connect,解决了网络层数变深后的梯度反传的问题,从而使得训练非常深的网络成为可能。而深层网络比浅层网络有更好的性能则是一个 well-known 的结论。
Veit 等的文章却提出了对 ResNet 的一种非常不同的解释。作者认为:
1. ResNet的优良性能,并不来自于层数深,而是由于ResNet是指数多(相对于层数)的浅层(相对物理层数)网络的ensemble模型。
2. ResNet 也并没有解决深层网络情况下的梯度反传问题,而是回避的这一问题——ResNet 只是训练了一系列浅层模型,而 ensemble 中的深层模型并没并良好的训练,只不过是这部分模型数量少,并没有影响 ResNet 的整体性能。
为支持以上观点,文章中进行了一系列 lesion study(破坏网络结构)。
1. 相关工作
Residual networks
简单而言,ResNet引入skip connect (Fig1(a))。因此,常规网络中输出