论文解析四：AlexNet 使用深度卷积神经网络进行 ImageNet 分类

原创

于 2024-10-08 16:34:23 发布 · 1.3k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #分类 #人工智能

第一遍阅读：

Abstract—摘要：

摘要简单总结来说提出了以下四点：

表示了我们用了一个深度卷积神经网络来进行图片分类，取得了一个非常好的效果。
深度卷积网络由60million个参数，65w个神经元，以及五个卷积层和三个全连接层组成。
为了加快训练，用到了GPU加速实现。
用了dropout这个正则化方法来减少过拟合。

Discussion—讨论：

总结来说讨论就是作者的一些吐槽以及后续的一些工作打算，大概分为了以下三点：

我们的研究表明深度很重要，如果去掉一个卷积层，那么准确率会下降2%。（这一点现在看来没那么准确，因为少一层导致准确率下降也有可能是因为参数没找好，找好参数也可以达到之前的准确率的，所以现在来看，深度和宽度都很重要）
没有使用无监督进行预训练。这个是有一定历史背景的，在Alexnet网络提出之前有监督学习打不过无监督学习，但是在Alexnet提出之后，引起了有监督学习的热潮，直到最新的语言模型bert的提出，才慢慢的将人们又拉回了无监督学习。
最后提出想将更大更深的神经网络应用到video数据上，因为video计算量非常大，且有时序信息（时序信息有很多能帮助你理解在空间的图片信息）。时序信息在现在来看发展也是比较慢的。

Figure and Table—重要的图和表

左侧图：八张ILSVRC-2010测试图像和我们的模型认为最可能的五个标签。正确的标签写在每张图片下面，分配给正确标签的概率也用红色条显示（如果恰好位于前5位）。
右侧图：第一列中有五幅ILSVRC-2010测试图像。剩下的列显示了在最后一个隐藏层中生成特征向量的六个训练图像，这些特征向量与测试图像的特征向量之间的欧氏距离最小（简单来说可以理解为倒数第二层提取出的特征向量最相似的几个图像，也就是说我们的神经网络在最后第二层输出的特征，在语义空间里面表现的非常好）。
在这里插入图片描述
面两张表格是与之前最好的模型做的对比以及一些数据，这里不做详细解释了：

第二遍阅读：

第一章：Introduce—介绍

Introduce部分主要说了以下几点：

引出ImageNet这个数据集很大很好。
对于ImageNet这个很大的模型，我们采用CNN来作为我们的模型。
对于CNN计算成本高（容易overfitting+训练不动），我们利用GPU以及高度优化的2D卷积来实现CNN的训练。
主要贡献：我们训练了一个很大很好的模型，结果特别好，网络有一些新的和不常见的一些特性，来提升性能。用了一些不寻常的方法以及用了什么方法来避免过拟合，并且说明深度似乎很重要。
网络的大小受到了GP