ImageNet Classification with Deep Convolutional Neural Networks
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton
一、论文梳理
摘要
正文翻译 | 笔记 |
我们训练了一个大型的深度卷积神经网络,来将在ImageNet LSVRC-2010大赛中的120万张高清图像分为1000个不同的类别。对测试数据,我们得到了top-1误差率37.5%,以及top-5误差率17.0%,这个效果比之前最顶尖的都要好得多。该神经网络有6000万个参数和650,000个神经元,由五个卷积层,以及某些卷积层后跟着的max-pooling层,和三个全连接层,还有排在最后的1000-way的softmax层组成。为了使训练速度更快,我们使用了非饱和的神经元和一个非常高效的GPU关于卷积运算的工具。为了减少全连接层的过拟合,我们采用了最新开发的正则化方法,称为“dropout”,它已被证明是非常有效的。在ILSVRC-2012大赛中,我们又输入了该模型的一个变体,并依靠top-5测试误差率15.3%取得了胜利,相比较下,次优项的错误率是26.2%。 |
网络结构:五个卷积层,三个全连层,softmax作为分类器。结合了全新的正则化技术,使用GPU。 注:特征提取是不会出现过拟的,过拟合都是针对分类器或机器学习说的说的。 注:top1-----就是你预测的label取最后概率向量里面最大的那一个作为预测结果,如过你的预测结果中概率最大的那个分类正确,则预测正确。否则预测错误 top5-----就是最后概率向量最大的前五名中,只要出现了正确概率即为预测正确。否则预测错误。 |
补充:
1)什么是正则化?
正则化:许多策略被显示地设计来减少测试误差,这些策略统称正则化。(感觉还是不懂,哈哈)
2)从正则化的功能出发理解正则化:
正则化的功能是修改学习算法,提高算法的性能。控制算法性能的方法:一是允许使用的函数种类,二是这些函数的数量。所以,个人觉得正则化方法就是使用一些方法,使得网络或分类器所表达的函数族出现变化,增加或减少网络的约束。(具体例子见花书5.2容量、过拟合和欠拟合)
3)解释drop为什么是正则化技术:每次训练减少神经元的个数,降低了分类器的容量,进而缓解了过拟合。(容量什么的,看花书)
1、引言
正文翻译 | 笔记 |
当前物体识别的方法基本上都使用了机器学习方法。为了改善这些方法的性能,我们可以收集更大的数据集,学习更强有力的模型,并使用更好的技术,以防止过拟合。直到最近,标记图像的数据集都相当小——大约数万张图像(例如,NORB [16],Caltech-101/256 [8, 9],以及CIFAR-10/100 [12])。简单的识别任务可以用这种规模的数据集解决得相当好,特别是当它们用标签-保留转换增强了的时候。例如,在MNIST数字识别任务中当前最好的误差率(<0.3%)接近于人类的表现[4]。但是现实环境中的物体表现出相当大的变化,因此要学习它们以对它们进行识别就必须使用更大的训练集。事实上,小规模图像数据集的缺陷已被广泛认同(例如,Pinto等人[21]),但是直到最近,收集有着上百万张图像的带标签数据集才成为可能。更大型的新数据集包括LabelMe [23],它由几十万张完全分割图组成,还有ImageNet [6],它由多于22,000个种类中超过1500万张带标签的高分辨率图像组成。 为了从几百万张图像中学习数以千计的物体,我们需要一个学习能力更强的模型。然而,物体识别任务的极大复杂性意味着这个问题不能被指定,即使是通过与ImageNet一样大的数据集,所以我们的模型中也应该有大量的先验知识,以补偿我们所没有的全部数据。卷积神经网络(CNN)构成了一个这种类型的模型[16, 11, 13, 18, 15, 22, 26]。它们的能力可以通过改变其深度与广度得到控制,它们也可作出有关图像性质的强壮且多半正确的假设(即, |