基本内容
论文题目
《ImageNet Classification with Deep Convolutional Neural Network》
论文地址
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
论文简介
2012年ImageNet分类任务冠军,相比于第二名降低了10%以上的错误率,并提出dropout、LRN、Overlapping Polling等技术进行实践。
其他名称
AlexNet
摘要翻译
我们训练了一个大型深度卷积神经网络来将ImageNet LSVRC-2010竞赛的120万高分辨率的图像分到1000不同的类别中。在测试数据上,我们得到了top-1 37.5%, top-5 17.0%的错误率,这个结果比目前的最好结果好很多。这个神经网络有6000万参数和650000个神经元,包含5个卷积层(某些卷积层后面带有池化层)和3个全连接层,最后是一个1000维的softmax。为了训练的更快,我们使用了非饱和神经元并对卷积操作进行了非常有效的GPU实现。为了减少全连接层的过拟合,我们采用了一个最近开发的名为dropout的正则化方法,结果证明是非常有效的。我们也使用这个模型的一个变种参加了ILSVRC-2012竞赛,赢得了冠军并且与第二名 top-5 26.2%的错误率相比,我们取得了top-5 15.3%的错误率。
正文介绍
网络架构
AlexNet共有8层,其中前5层是卷积层,后3层为全连接层,通过卷积神经网络进行特征提取,对图片进行分类预测。
dropout
将许多不同模型的预测结合起来是降低测试误差[1, 3]的一个非常成功的方法,但对于需要花费几天来训练的大型神经网络来说,这似乎太昂贵了。然而,有一个非常有效的模型结合版本,它只花费两倍的训练成本。这种最近引入的技术,叫做“dropout”[10],它会以0.5的概率对每个隐层神经元的输出设为0。那些“失活的”的神经元不再进行前向传播并且不参与反向传播。因此每次输入时,神经网络会采样一个不同的架构,但所有架构共享权重。这个技术减少了复杂的神经元互适应,因为一个神经元不能依赖特定的其它神经元的存在。因此,神经元被强迫学习更鲁棒的特征,它在与许多不同的其它神经元的随机子集结合时是有用的。在测试时,我们使用所有的神经元但它们的输出乘以0.5,对指数级的许多失活网络的预测分布进行几何平均,这是一种合理的近似。
LRN
LRN(Local Response Normalization)是一种将卷积计算周围像素进行归一化计算的方式,在网络层数较浅时可以提升网络性能,但在VGG中被证实当网络较深时这种计算实际上没有分类准确率的提升。
公式如下:
Overlapping Polling
CNN中的池化层归纳了同一核映射上相邻组神经元的输出。习惯上,相邻池化单元归纳的区域是不重叠的(例如[17, 11, 4])。更确切的说,池化层可看作由池化单元网格组成,网格间距为 个像素,每个网格归纳池化单元中心位置 大小的邻居。如果设置 ,我们会得到通常在CNN中采用的传统局部池化。如果设置 ,我们会得到重叠池化。这就是我们网络中使用的方法,这个方案分别降低了top-1 0.4%,top-5 0.3%的错误率,与非重叠方案相比,输出的维度是相等的。我们在训练过程中通常观察采用重叠池化的模型,发现它更难过拟合。
实验结果
可以看到相比于SIFT等特征检测子进行分类的方法,使用卷积神经网络进行分类任务,有10%以上的分类准确率的提升。