文献精读——（第二篇）AlexNet

最新推荐文章于 2024-11-24 21:03:53 发布

我学数学我骄傲

最新推荐文章于 2024-11-24 21:03:53 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：文献阅读笔记（CNN，CV）文章标签：深度学习图像识别 alexnet

本文链接：https://blog.youkuaiyun.com/weixin_37799689/article/details/89202007

本文参考，文献下载（谢谢作者）

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

一、论文梳理

摘要

正文翻译

笔记

我们训练了一个大型的深度卷积神经网络，来将在ImageNet LSVRC-2010大赛中的120万张高清图像分为1000个不同的类别。对测试数据，我们得到了top-1误差率37.5%，以及top-5误差率17.0%，这个效果比之前最顶尖的都要好得多。该神经网络有6000万个参数和650,000个神经元，由五个卷积层，以及某些卷积层后跟着的max-pooling层，和三个全连接层，还有排在最后的1000-way的softmax层组成。为了使训练速度更快，我们使用了非饱和的神经元和一个非常高效的GPU关于卷积运算的工具。为了减少全连接层的过拟合，我们采用了最新开发的正则化方法，称为“dropout”，它已被证明是非常有效的。在ILSVRC-2012大赛中，我们又输入了该模型的一个变体，并依靠top-5测试误差率15.3%取得了胜利，相比较下，次优项的错误率是26.2%。

网络结构：五个卷积层，三个全连层，softmax作为分类器。结合了全新的正则化技术，使用GPU。

注：特征提取是不会出现过拟的，过拟合都是针对分类器或机器学习说的说的。

注：top1-----就是你预测的label取最后概率向量里面最大的那一个作为预测结果，如过你的预测结果中概率最大的那个分类正确，则预测正确。否则预测错误

top5-----就是最后概率向量最大的前五名中，只要出现了正确概率即为预测正确。否则预测错误。

补充：

1）什么是正则化？

正则化：许多策略被显示地设计来减少测试误差，这些策略统称正则化。（感觉还是不懂，哈哈）

2）从正则化的功能出发理解正则化：

正则化的功能是修改学习算法，提高算法的性能。控制算法性能的方法：一是允许使用的函数种类，二是这些函数的数量。所以，个人觉得正则化方法就是使用一些方法，使得网络或分类器所表达的函数族出现变化，增加或减少网络的约束。（具体例子见花书5.2容量、过拟合和欠拟合）

3）解释drop为什么是正则化技术：每次训练减少神经元的个数，降低了分类器的容量，进而缓解了过拟合。（容量什么的，看花书）

1、引言

正文翻译

笔记

当前物体识别的方法基本上都使用了机器学习方法。为了改善这些方法的性能，我们可以收集更大的数据集，学习更强有力的模型，并使用更好的技术，以防止过拟合。直到最近，标记图像的数据集都相当小——大约数万张图像（例如，NORB [16]，Caltech-101/256 [8, 9]，以及CIFAR-10/100 [12]）。简单的识别任务可以用这种规模的数据集解决得相当好，特别是当它们用标签-保留转换增强了的时候。例如，在MNIST数字识别任务中当前最好的误差率（<0.3%）接近于人类的表现[4]。但是现实环境中的物体表现出相当大的变化，因此要学习它们以对它们进行识别就必须使用更大的训练集。事实上，小规模图像数据集的缺陷已被广泛认同（例如，Pinto等人[21]），但是直到最近，收集有着上百万张图像的带标签数据集才成为可能。更大型的新数据集包括LabelMe [23]，它由几十万张完全分割图组成，还有ImageNet [6]，它由多于22,000个种类中超过1500万张带标签的高分辨率图像组成。

为了从几百万张图像中学习数以千计的物体，我们需要一个学习能力更强的模型。然而，物体识别任务的极大复杂性意味着这个问题不能被指定，即使是通过与ImageNet一样大的数据集，所以我们的模型中也应该有大量的先验知识，以补偿我们所没有的全部数据。卷积神经网络（CNN）构成了一个这种类型的模型[16, 11, 13, 18, 15, 22, 26]。它们的能力可以通过改变其深度与广度得到控制，它们也可作出有关图像性质的强壮且多半正确的假设（即，统计数据的稳定性和像素依赖关系的局部性）。因此，与层次规模相同的标准前馈神经网络相比，CNN的连接关系和参数更少，所以更易于训练，而其理论上的最佳性能可能只略差一点。

机器学习如果想要有更好的识别效