【论文精读】【Overfeat】Integrated Recognition, Localization and Detection using Convolutional Networks_overfeat: integrated recognition, localization and-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44184852/article/details/136405580

OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks
OverFeat：使用卷积网络的集成识别、定位和检测
在这里插入图片描述

0.论文摘要和作者信息

摘要

我们提出了一个使用卷积网络进行分类、定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还引入了一种新的深度学习方法，通过学习预测目标边界来进行定位。然后累积而不是抑制边界框，以增加检测置信度。我们表明，不同的任务可以同时学习使用一个单一的共享网络。该集成框架赢得了2013年ImageNet大规模视觉识别挑战赛（ILSVRC2013）的定位任务，并在检测和分类任务中获得了极具竞争力的结果。在赛后工作中，我们为检测任务建立了一个新的艺术状态。最后，我们从我们的最佳模型中发布了一个名为OverFeat的特征提取器。

作者信息

Pierre Sermanet
David Eigen
Xiang Zhang
Michael Mathieu
Rob Fergus
Yann LeCun

Courant Institute of Mathematical Sciences, New York University

1.研究背景

识别图像中主要目标的类别是卷积网络（ConvNets）[17]已经应用多年的任务，无论这些目标是手写字符[16]、门牌号[24]、无纹理玩具[18]、交通标志[3，26]、来自Caltech-101数据集的目标[14]还是来自1000类别ImageNet数据集的目标[15]。卷积神经网络在Caltech-101等小型数据集上的准确性虽然不错，但并没有破纪录。然而，更大数据集的出现使卷积神经网络能够显著提高数据集的技术水平，如1000类ImageNet[5]。对于许多这样的任务，卷积神经网络的主要优点是整个系统被端到端地训练，从原始像素到最终类别，从而减轻了手动设计合适的特征提取器的要求。主要的缺点是他们对标记训练样本的贪婪胃口。

本文的主要观点是表明训练卷积网络同时对图像中的目标进行分类、定位和检测可以提高分类精度和所有任务的检测和定位精度。本文提出了一种新的利用单一卷积神经网络进行目标检测、识别和定位的集成方法。我们还介绍了一种通过累积预测边界框进行定位和检测的新方法。我们建议，通过组合许多定位预测，可以在不训练背景样本的情况下执行检测，并且有可能避免耗时和复杂的自举训练过程。不对背景进行训练也让网络只关注正类以获得更高的准确性。

在ImageNet ILSVRC 2012和2013数据集上进行实验，并建立ILSVRC 2013定位和检测任务的最新结果。

虽然来自ImageNet分类数据集的图像在很大程度上被选择为包含填充图像大部分的粗糙居中目标，但感兴趣的目标有时在图像中的大小和位置变化很大。解决这个问题的第一个想法是在图像的多个位置，以滑动窗口的方式，在多个比例上应用卷积神经网络。然而，即使这样，许多观察窗可能包含物体的完全可识别的部分（比如说，狗的头），但不是整个物体，甚至也不是物体的中心。这导致了较好的分类，但较差的定位和检测。因此，第二个想法是训练系统不仅产生每个窗口的类别分布，而且产生包含目标的边界框相对于窗口的位置和大小的预测。第三个想法是在每个地点和规模积累每个类别的证据。

许多作者已经提出使用卷积神经网络在多个尺度上使用滑动窗口进行检测和定位，这可以追溯到20世纪90年代早期的多字符串[20]、人脸[30]和手[22]。最近，卷积神经网络已被证明在自然图像中的文本检测[4]、人脸检测[8，23]和行人检测[25]方面具有最先进的性能。

一些作者还提出训练卷积神经网络来直接预测要定位的目标的实例化参数，例如相对于观察窗的位置，或者目标的姿态。例如Osadchy等[23]描述了用于同时进行人脸检测和姿态估计的卷积神经网络。面由九维输出空间中的3D流形表示。歧管上的位置指示姿态（俯仰、偏航和滚动）。当训练图像是人脸时，网络被训练以在流形上已知姿态的位置产生一个点。如果图像不是面，输出将被推离流形。在测试时，到流形的距离指示图像是否包含人脸，流形上最近点的位置指示姿态。Taylor等[27，28]使用卷积神经网络估计身体部位（手、头等）的位置，从而导出人体姿势。他们使用度量学习标准来训练网络，以在身体姿势流形上产生点。Hinton等还提出训练网络来计算特征的显式实例化参数，作为识别过程的一部分[12]。

其他作者已经提出通过基于卷积神经网络的分割来执行目标定位。最简单的方法是训练卷积神经网络将其观察窗口的中心像素（或体积图像的体素）分类为区域之间的边界[13]。但是当必须对区域进行分类时，最好执行语义分割。其主要思想是训练卷积神经网络根据观察窗口所属目标的类别对观察窗口的中心像素进行分类，使用窗口作为决策的上下文。应用范围从生物图像分析[21]，到移动机器人的障碍物标记[10]到照片标记[7]。这种方法的优点是边界轮廓不必是矩形，区域也不必是界限分明的目标。缺点是需要密集的像素级标签进行训练。这种分割预处理或目标建议步骤最近在传统计算机视觉中流行起来，以减少用于检测的位置、比例和纵横比的搜索空间[19，2，6，29]。因此，可以在搜索空间中的最佳位置应用昂贵的分类方法，从而提高识别精度。此外，[29，1]表明，这些方法通过大幅减少不太可能的目标区域来提高准确性，从而减少潜在的假阳性。然而，我们的密集滑动窗口方法能够在ILSVRC13检测数据集上优于目标建议方法。

Krizhevsky等[15]最近使用大型卷积神经网络展示了令人印象深刻的分类性能。作者还参加了ImageNet 2012竞赛，赢得了分类和定位挑战。尽管他们展示了令人印象深刻的定位性能，但还没有公开的工作描述他们的方法。因此，我们的论文第一次清楚地解释了卷积神经网络如何用于ImageNet数据的定位和检测。在本文中，我们使用术语定位和检测的方式与它们在ImageNet 2013竞赛中的使用方式一致，即唯一的区别是使用的评估标准，两者都涉及预测图像中每个目标的边界框。

2.视觉任务

在本文中，我们按难度递增的顺序探讨了三个计算机视觉任务：（i）分类，（ii）定位，和（iii）检测。每个任务都是下一个任务的子任务。虽然所有的任务都使用一个单一的框架和一个共享的特性学习库来处理，但我们将在下面的章节中分别描述它们。

在整篇论文中，我们报告了2013年ImageNet大规模视觉识别挑战（ILSVRC2013）的结果。在这个挑战的分类任务中，每个图像被分配一个与图像中的主要目标相对应的标签。允许五次猜测以找到正确答案（这是因为图像也可以包含多个未标记的目标）。定位任务类似于每个图像允许5次猜测，但是另外，每次猜测都必须返回预测目标的边界框。要被认为是正确的，预测的框必须与groundtruth匹配至少50%（使用交并集的PASCAL标准），并且用正确的类标记（即，每个预测都是关联在一起的标签和边界框）。检测任务与定位任务的不同之处在于，每幅图像中可以有任意数量的目标（包括零个），并且假阳性通过平均精度来惩罚平均精度mAP测量。定位任务是分类和检测之间的一个方便的中间步骤，并且允许我们独立于特定于检测的挑战（例如学习背景类）来评估我们的定位方法。在图1中，我们示出了具有我们的定位/检测预测以及相应的groundtruth的图像的示例。请注意，分类和定位共享相同的数据集，而检测也有额外的数据，其中目标可以更小。检测数据还包含一组图像，其中某些目标不存在。这可以用于引导，但是我们在这项工作中没有使用它。

在这里插入图片描述

图1：定位（上图）和检测任务（下图）。左边的图像包含我们的预测（按置信度递减排序），而右边的图像显示groundtruth标签。检测图像（底部）说明了检测数据集的较高难度，其可以包含许多小目标，而分类和定位图像通常包含单个大目标。

3.分类

我们的分类架构类似于Krizhevsky等[15]的最佳ILSVRC12架构。然而，我们改进了网络设计和推理步骤。由于时间限制，Krizhevsky模型中的一些训练特征没有被探索，因此我们希望我们的结果可以进一步改进。这些将在未来的工作第6节中讨论

3.1 模型设计与训练

我们在ImageNet 2012训练集（120万张图像和C=1000个类）上训练网络[5]。我们的模型使用了Krizhevsky等[15]提出的相同的固定输入大小方法。在训练期间，但转向多尺度进行分类，如下一节所述。每个图像被下采样，使得最小维度为256像素。然后，我们提取5个大小为221x221像素的随机裁剪（及其水平翻转），并以大小为128的小批量将它们呈现给网络。网络中的权重随机初始化为 $μ, σ) = (0, 1 × 10^{−2})$ 。然后通过随机梯度下降进行更新，伴随动量为0.6，l2权重衰减为 $1 × 10^{−5}$ 。学习率最初为 $5 × 10^{−2}$ ，在（30、50、60、70、80）个epoch后连续降低0.5倍。在分类器中的全连接层（第6层和第7层）上采用速率为0.5的DropOut[11]。

我们在表1和表3中详细说明了体系结构的大小。请注意，在训练过程中，我们将这种架构视为非空间（大小为1x1的输出图），这与产生空间输出的推理步骤相反。第1-5层类似于Krizhevsky等[15]，使用校正（“relu”）非线性和最大池化，但具有以下区别：（i）不使用对比度归一化；（ii）池化区域不重叠，（iii）我们的模型具有更大的第一层和第二层特征图，这要归功于更小的步长（2而不是4）。更大的步长有利于速度，但会损害准确性。

在这里插入图片描述
表1：快速模型的架构细节。特征图的空间大小取决于输入图像的大小，输入图像的大小在我们的推理步骤中会发生变化（参见附录中的表5）。这里我们展示了训练空间大小。第5层是顶层卷积层。后续层完全连接，并在测试时以滑动窗口方式应用。完全连接的层也可以被视为空间设置中的1x1卷积。精确