基本内容
论文题目
《Deep Residual Learning for Image Recognition》
论文地址
http://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
论文简介
2015年ImageNet分类任务冠军,引入残差、shortcut及bottleneck结构,解决了网络较深时出现的网络退化问题,容易优化,随深度提升,准确率提升显著。
其他名称
ResNet
摘要翻译
训练更深的神经网络非常困难。我们做了一种残差学习的框架去让训练网络的深度相对更深,我们明确将层重新定义为通过输入层进行计算的残差函数,而不是学习不相关的函数,经验表明,这种残差网络更容易优化,并且可以从更深的网络中获得更高的准确率。在ImageNet数据集上,我们使用了152层的Resnet,相比于VGG的八倍深度,但复杂度更低。集成的残差网络在ImageNet数据集获得了3.57%的错误率,并赢得了ILSVRC2015的分类任务冠军,同时本文也分析了100层和1000层在CIFAR10上的表现
对于很多视觉识别的任务来说,深度表征非常重要。仅仅由于深度的提升,我们在COCO目标检测数据集上有了28%的相对提升。深度残差网络是我们ILSVRC和COCO2015比赛的基础,我们同时也获得了ImageNet检测任务、定位任务、COCO检测、COCO分割比赛的冠军
正文介绍
网络架构
Resnet文章中列出的网络架构如下,
Residual Representation
Resnet使用残差结构使用x来拟合结果,通过计算特征对损失的贡献,使得拟合效果更好,同时在一定程度消除由于网络较深导致的梯度消失问题
由于输入输出的特征维度可能不同,因此在相加时使用padding补零的方法使得二者的维度相同,这种结构叫做shortcut
bottleneck
bottleneck是residual unit的改进形式,使用2个11的卷积核代替1个33的卷积核,参数量更少,网络更深,有更好的非线性性,且速度更快
实验结果
可以看到相比于VGG16,ResNet152有6%以上的错误率下降。