Deep Residual Learning for Image Recognition
文章目录
0 摘要
- 提出了残差学习框架,简化深度网络训练
- 显示定义与输入有关的残差函数,重新配置层
- 残差网络更易优化,随深度增加获得精确度
- ImageNet上的152层深度残差网络比VGG深8倍,但是复杂性更低
- 效果很好,ILSVRC-2015冠军
1 引言
背景/问题提出
深度网络融合浅层/中层/高层提取到的特征进行分类,而且是以端到端训练的方式,特征等级随网络叠加变得丰富。
网络深度至关重要。
“学习一个更好的网络是否和堆叠更多的层一样容易?”,过深的网络会有以下问题:
-
梯度消失(弥散)/梯度爆炸问题:初始化正则化、中间层正则化策略来解决。
-
退化问题(正确率饱和后急剧下降,不是过拟合引起的):层更多(简单的堆叠),训练误差反而更高

从 浅层模型 构造 深层模型 的方案:添加层时恒等映射,其他层直接拷贝。

这种构造深层模型方法训练误差不比浅层大(增加的层起到的作用是恒等映射),但是也不能找到等优或更优解(或者不能在规定时间内找到)。拟合一个恒等映射代价大效果差
深度残差网络,期望几个堆叠层拟合一个残差函数 F F F,而不是原本存在的函数 H H H
假设映射函数 H ( x ) H(x) H(x)是我们最终期望的获得的,堆叠的非线性层去拟合 F ( x ) = H ( x ) − x F(x)=H(x)-x F(x)=H(x)−x,那么原映射函数变成 H ( x ) = F ( x ) + x H(x)=F(x)+x H(x)=F(x)+x。假设优化残差映射 F ( x ) F(x) F(x)比优化原始映射 H ( x ) H(x) H(x)要容易
F ( x ) + x F(x)+x F(x)+x可以通过在前向网络捷径连接实现,残差块如下图:

捷径可以跨一层,也可以跨多层;可以是恒等映射,也可以是投影映射,恒等映射既没有引入额外参数,又没有增加计算复杂度
实验说明/贡献
ImageNet上验证
- 深度残差网络容易优化,但当深度增加时,对应的“普通”网络(简单堆叠层)显示出更高的训练误差,深度残差网络却不会
- 深度残差网络可以通过增加深度提升精度,产生更好结果
CIFAR-10、ILSVRC、COCO等若干数据集和比赛效果都不错,模型不限定在特定的数据集上
2 相关工作
-
残差表示:VLAD、Fisher Vector编码残差向量(两者都是用于图像检索和分类的强大浅层表示)。求解偏微分方程,用分层预处理(依赖于表示两个标度之间的残差矢量的变量)替代多重网格法,收敛速度更快。
-
捷径连接:通过捷径连接实现中间层响应,梯度和传播误差的方法;“起始”层由捷径分支和更深的分支组成;带有门函数的
highway network(门与数据相关且有参数)。
3 深度残差学习
3.1 残差学习
令 H ( x ) H(x) H(x)表示为堆叠层拟合表示的映射, x x x表示第一层的输入。假设多非线性层可以逼近相近的复杂函数,它们就能渐近逼近残差函数 H ( x ) − x H(x)-x H(x)−x,令 F ( x ) = H ( x ) − x F(x)=H(x)-x F(x)=H(x)−

提出残差学习框架,解决深层网络训练难题。通过捷径连接实现恒等映射,避免退化问题,随深度增加获得更高精确度。152层深度残差网络在ImageNet上表现优秀。
最低0.47元/天 解锁文章
1002

被折叠的 条评论
为什么被折叠?



