在深度神经网络中,随着网络越来越深,仅仅靠 BN、ReLU、DropOut等Trick无法解决收敛问题,相反,网络的加深带来参数的增加。
随着网络层级的加深,会出现两个问题:
- 过多的参数容易导致过拟合。
- 训练结果会在真值周围变化,导致网络震荡。
借鉴GBDT和XGBoost的思路,ResNet借助残差来解决震荡问题。
ResNet全称是Residual Network,每一个节点学到的不再是参数本身,而是残差,这就决定了网络有可能无限加深,基线不变,后面的节点学到的是对前面节点的补充,虽然有震荡,但震荡范围越来越小,直到趋于0。