论文笔记ResNet：Deep Residual Learning for Image Recognition

最新推荐文章于 2024-06-14 00:16:16 发布

原创

最新推荐文章于 2024-06-14 00:16:16 发布 · 926 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #人工智能 #深度学习

提出残差学习框架，解决深层网络训练难题。通过捷径连接实现恒等映射，避免退化问题，随深度增加获得更高精确度。152层深度残差网络在ImageNet上表现优秀。

Deep Residual Learning for Image Recognition

0 摘要

提出了残差学习框架，简化深度网络训练
显示定义与输入有关的残差函数，重新配置层
残差网络更易优化，随深度增加获得精确度
ImageNet上的152层深度残差网络比VGG深８倍，但是复杂性更低
效果很好，ILSVRC-2015冠军

1 引言

背景/问题提出

深度网络融合浅层/中层/高层提取到的特征进行分类，而且是以端到端训练的方式，特征等级随网络叠加变得丰富。

网络深度至关重要。

“学习一个更好的网络是否和堆叠更多的层一样容易？”，过深的网络会有以下问题：

梯度消失（弥散）/梯度爆炸问题：初始化正则化、中间层正则化策略来解决。
退化问题（正确率饱和后急剧下降，不是过拟合引起的）：层更多（简单的堆叠），训练误差反而更高

从浅层模型构造深层模型的方案：添加层时恒等映射，其他层直接拷贝。

这种构造深层模型方法训练误差不比浅层大（增加的层起到的作用是恒等映射），但是也不能找到等优或更优解（或者不能在规定时间内找到）。拟合一个恒等映射代价大效果差

深度残差网络，期望几个堆叠层拟合一个残差函数 $F$ ，而不是原本存在的函数 $H$

假设映射函数 $H (x)$ 是我们最终期望的获得的，堆叠的非线性层去拟合 $F (x) = H (x) - x$ ，那么原映射函数变成 $H (x) = F (x) + x$ 。假设优化残差映射 $F (x)$ 比优化原始映射 $H (x)$ 要容易

$F (x) + x$ 可以通过在前向网络捷径连接实现，残差块如下图：

捷径可以跨一层，也可以跨多层；可以是恒等映射，也可以是投影映射，恒等映射既没有引入额外参数，又没有增加计算复杂度

实验说明/贡献

ImageNet上验证

深度残差网络容易优化，但当深度增加时，对应的“普通”网络（简单堆叠层）显示出更高的训练误差，深度残差网络却不会
深度残差网络可以通过增加深度提升精度，产生更好结果

CIFAR-10、ILSVRC、COCO等若干数据集和比赛效果都不错，模型不限定在特定的数据集上

2 相关工作

残差表示：VLAD、Fisher Vector编码残差向量（两者都是用于图像检索和分类的强大浅层表示）。求解偏微分方程，用分层预处理（依赖于表示两个标度之间的残差矢量的变量）替代多重网格法，收敛速度更快。
捷径连接：通过捷径连接实现中间层响应，梯度和传播误差的方法；“起始”层由捷径分支和更深的分支组成；带有门函数的highway network（门与数据相关且有参数）。

3 深度残差学习

3.1 残差学习

令 $H (x)$ 表示为堆叠层拟合表示的映射， $x$ 表示第一层的输入。假设多非线性层可以逼近相近的复杂函数，它们就能渐近逼近残差函数 $H (x) - x$ ，令 $F (x) = H (x) -$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。