Resnet
这篇博客主要介绍了提出Resnet的两篇论文,我分析了两篇论文的核心内容,欢迎大家阅读!
相关论文
2016CVPR Deep Residual Learning for Image Recognition
2016ECCV Identity Mapping in Deep Residual Networks
论文简介
CVPR论文
1.极深的深度网络会导致train error 和test error都增加, 这并不是由于overfitting导致的,因为训练集的error也增加。说明不是所有的系统都可以被同样简单地优化。作者全文以一种简单的堆叠(plain)神经网络来于深度残差网络作对比,下图所示即为刚刚所说的简单堆叠引起的误差增加。
2. 在CVPR这篇论文中最重要的一幅图就是下图,一个更深的残差网络可以由下面的残差单元所组成。在以前的深度学习中我们通常拟合的是 y=F(x) y = F ( x ) 中的 F F 函数,其中
是网络的输入, y y 是网络的输出,一大串的网络可以抽象为一个非线性
函数(因为使用了非线性激活函数…)。我们现在将原先的函数重新记为 H(x) H ( x ) ,我们这篇论文网络学习的函数为 F(x)=H(x)−x F ( x ) = H ( x ) − x ,它是原来网络输出和网络输入的差,即为残差。当我们将一大串网络的学习目标改为残差后,那么网络的输出即为 F(x)+x F ( x ) + x 。为了实现和原有输入的相加,我们需要将正常的前向网络添加一个”shortcut connections”。这个”shortcut connections”在这篇论文中就是一个”Identity mapping”(恒等映射),显而易见,恒等映射在原有网络基础上,并不需要参加额外的参数,它仍然可以使用现有神经网络框架的SGD(随机梯度下降)等求解器求解训练。
3. 作者接下来简单介绍了深度残差网络和简单堆叠神经网络在ImageNet和CIFAR-10两个数据集对比结果,发现深度残差网络不仅非常容易优化,而且随着深度的增加残差网络的分类准确率也增加。同时残差网络在其他数据集和其他图像分割检测等任务中表现也十分优秀。拥有极好的扩展性。
4. 作者下一部分Related Work中对残差表示和shortcut connections的相关工作进行了介绍。
5. 作者之后介绍了使用残差这种形式的灵感来源,degradation这个问题暗示了原来的优化网络损失的算法在经过传统很多层非线性网络层后无法近似模拟恒等映射,而通过残差单元中的shortcut connections将x直接送过去,会解决这个问题。
6. 作者下面用这个公式来说明恒等变换的细节。 y=F(x,Wi)+x y = F ( x , W i ) + x , 在相加时我们需要保证经过若干神经网络层后即 F F 处理后与
维度相同,所以公式变为 y=F(x,Wi)+Wsx y = F ( x , W i ) + W s x , Ws