03论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

最新推荐文章于 2025-04-09 21:28:30 发布

原创最新推荐文章于 2025-04-09 21:28:30 发布 · 298 阅读

0 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

11 篇文章

订阅专栏

本文介绍了如何使用深度卷积神经网络（CNN）处理ImageNet分类任务时，通过数据增强和dropout技术有效减少过拟合。数据增强包括图像的随机提取和水平翻转，以及通过PCA改变RGB通道强度。dropout技术则以0.5概率随机关闭神经元，防止复杂的互适应关系，提高模型的泛化能力。

降低过拟合（reduce overfitting）

我们的神经网络架构有6000万参数。尽管ILSVRC的1000类使每个训练样本从图像到标签的映射上强加了10比特的约束，但这不足以学习这么多的参数而没有相当大的过拟合。下面，我们会描述我们用来克服过拟合的两种主要方式。

1.1 Date Augmentation

图像数据上最简单常用的用来减少过拟合的方法是使用标签保留变换来人工增大数据集。我们使用了两种独特的数据增强方式，这两种方式都可以从原始图像通过非常少的计算量产生变换的图像，因此变换图像不需要存储在硬盘上。

在我们的实现中，变换图像通过CPU的Python代码生成，而此时GPU正在训练前一批图像。因此，实际上这些数据增强方案是不用计算的。

label-preserving transformations:这是一种减少过拟合的方式。也就是在不影响图像标签的前提下，对图片进行变换，以达到数据增强的目的。

第一种数据增强方式包括产生图像变换和水平翻转。我们从256×256图像上通过随机提取224 × 224的图像块实现了这种方式，然后在这些提取的图像块上进行训练。这通过一个2048因子增大了我们的训练集，尽管最终的训练样本是高度相关的。没有这个方案，我们的网络会有大量的过拟合，这会迫使我们使用更小的网络。在测试时，网络会提取5个224 × 224的图像块（四个角上的图像块和中心的图像块）和它们的水平翻转（因此总共10个图像块）进行预测，然后对网络在10个图像块上的softmax层进行平均。

水平翻转:

（2）改变训练图像中RGB通道的强度，对所有RGB像素值执行PCA，得到3*3的协方差矩阵；对特征值进行波动，乘以一个服从均值为0、标准差为0.1高斯分布的随机变量，得到一个新的协方差矩阵，从而实现一种滤镜的效果。

1.2 Dropout

结合许多不同模型的预测是一种非常成功的减少测试误差的方式[1,3]，但它先前训练花了好几天时间，似乎对于大型神经网络来说太过昂贵。然而，有一个非常有效的模型组合版本，它在训练中只花费两倍于单模型的时间。最近推出的叫做“dropout”的技术[10]，它做的就是以0.5的概率将每个隐层神经元的输出设置为零。以这种方式“dropped out”的神经元既不利于前向传播，也不参与反向传播。所以每次提出一个输入，该神经网络就尝试一个不同的结构，但是所有这些结构之间共享权重。因为神经元不能依赖于其他特定神经元而存在，所以这种技术降低了神经元复杂的互适应关系。正因如此，要被迫学习更为鲁棒的特征，这些特征在结合其他神经元的一些不同随机子集时有用。在测试时，我们将所有神经元的输出都仅仅只乘以0.5，对于获取指数级dropout网络产生的预测分布的几何平均值，这是一个合理的近似方法。

我们在图2中前两个全连接层使用dropout。如果没有dropout，我们的网络会表现出大量的过拟合。dropout使收敛所需的迭代次数大致增加了一倍。