一、ResNet
1.梯度消失问题
深层网络有个梯度消失问题:模型变深时,其错误率反而会提升,该问题非过拟合引起,主要是因为梯度消失而导致参数难以学习和更新。
2. 网络创新
2015年何凯明等人提出deep residual network。在加入残存后,网络效果如下:
3. Residual结构
Residual结构是残差结构,在文章中给了两种不同的残差结构,
在ResNet-18和ResNet-34中,用的如下图中左侧图的结构,
在ResNet-50、ResNet-101和ResNet-152中,用的是下图中右侧图的结构。
上图左图可看到输入特征的channels是64,经过一个3x3的卷积核卷积之后,进行Relu激活,再经过一个3x3的卷积核进行卷积,但并没有直接激活。并且可以看到,在主分支上有一个圆弧的线从输入特征矩阵直接到加号,这个圆弧线是shortcut(捷径分支),