前言:温故而知新。这里将几篇经典文章进行总结,不想分太多篇,所以一篇讲完,篇幅较长,且每篇论文的更新时间可能不同。
本文将对AlexNet VGG NIN ResNet FCN这五篇经典的DL文章进行回顾,motivation/解决的问题/网络的结构/创新点等大致进行梳理。(点击论文名转到论文)
会把每篇论文尽量讲透彻,想弄清的同学们最好也结合论文和分享的其他资料一起阅读,没明白的/未谈到的问题,欢迎留言讨论。
-------------------------------------------------
目录
AlexNet(待续)
VGG(待续)
FCN(待续)
NIN(待续)
ResNet(已完成)
补充 indentity mapping2(replacing relu)
AlexNet
VGG
FCN
NIN
ResNet
ResNet残差网络。首先推荐何恺明本人在ICML 2016上的关于ResNet的报告,看完之后看论文思路会更清晰:ResNet report ppt in ICML2016 by 何恺明 。
---------------------------------------
Motivation
特征是图像/视频所有相关问题中最重要的,"features matter"。从VGG和其他人的工作我们可以知道,网络的深度可以影响特征,越深的网络深度可以使得特征的信息更丰富。 但是“Is learning better networks as simple as stacking more layers?” NO,学习更好的网络不是只是把层叠加起来就够了。当网络深度增加,会出现问题:A. 梯度消失 or 梯度爆炸(vanishing or exploding gradients); B. *退化问题(degradation problem)。
ResNet提出来基于恒等映射(identity mapping)的shortcut 连接,主要来解决退化问题。
*degradation problem means with the network depth increasing, accuracy gets saturated(which might be unsurprising) and then degrades rapidly. 退化问题就是指,当网络的深度增加时,模型的精度开始变得饱和,不再升高,最后快速减小。在作者的实验中如下图,层数增加后误差变大,plain net显然出现了退化问题。
*为什么是退化而不是过拟合? 1)如果是过拟合,train error会减小,而test error会减小后不断增大,显然这里不符合,这里的test and train error都增大了。 2)假想有一个n层的网络A 和一个m层的网络B (m>n)都要去拟合H(x),按道理来说,假如把B网络的前n层用已经训练好的网络A来代替,而后m-n层用恒等映射代替(identity mapping,f(x)=x),那么对于足够复杂的数据,B网络的原版应该会比B网络的代替版学到更好的表征,也就是B网络的误差<A网络,而实验结果并不是这样,所以出现了退化问题。

右:网络A和B, 反常的degradation现象