目标检测综述(一)

目标检测综述

论文链接:https://arxiv.org/pdf/1905.05055v1.pdf

​ 目标检测是计算机视觉中最重要也是最具挑战性的分支之一,它在人们的生活中得到了广泛的应用,如监控安全、自主驾驶等,目的是定位某一类语义对象的实例。随着用于检测任务的深度学习网络的快速发展,目标检测器的性能得到了极大的提高。为了深入了解目标检测管道的主要发展现状,本调查首先分析了现有典型检测模型的方法,并对基准数据集进行了描述。之后,我们主要系统地介绍了各种目标检测方法,包括一级和二级探测器。此外,我们列出了传统的和新的应用。分析了目标检测的一些代表性分支。最后,我们讨论了利用这些目标检测方法来建立一个有效和高效的系统的体系结构,并指出了一套发展趋势,以便更好地遵循最新的算法和进一步的研究。

introduction

​ 近年来,目标检测因其广泛的应用和近年来的技术突破而受到越来越多的关注。这项任务正在学术界和现实世界的应用中进行广泛的研究,如监控安全、自动驾驶、交通监控、无人机场景分析和机器人视觉。在导致目标检测技术快速发展的诸多因素和努力中,值得注意的贡献应该归因于深度卷积神经网络和gpu计算能力的发展。目前,深度学习模型已广泛应用于计算机视觉的整个领域,包括通用目标检测和特定领域目标检测。大多数最先进的物体探测器利用深度学习网络作为骨干和检测网络分别从输入图像(或视频)、分类和定位提取特征。目标检测是一种与计算机视觉和图像处理相关的计算机技术,用于检测数字图像和视频中某一类语义对象(如人、建筑物或汽车)的实例。目标检测的研究领域包括多类检测、边缘检测、突出目标检测、姿态检测、场景文本检测、人脸检测、行人检测等。作为场景理解的重要组成部分,目标检测广泛应用于现代生活的各个领域,如安全领域、军事领域、交通领域、医疗领域和生活领域。此外,到目前为止,许多基准在目标检测领域发挥了重要作用,如Caltech [1], KITTI [2], ImageNet [3], PASCAL VOC [4], MS COCO [5], Open Images V5[6]。在2018年ECCV VisDrone竞赛中,主办方发布了一个基于无人机平台的新数据集[7],其中包含大量图像和视频。

• Two kinds of object detectors

​ 现有的特定领域图像对象检测器通常可以分为两类,一类是两级检测器,最具代表性的一种,Faster R-CNN[8]。另一种是单级检测器,如YOLO [9], SSD[10]。两级检测器具有较高的定位和目标识别精度,而单级检测器具有较高的推理速度。采用ROI pooling层将两级检测器分为两级。例如,在fater R-CNN中,第一阶段称为RPN,一种区域建议网络,提出候选对象边界盒。第二阶段,通过RoIPool (RoI Pooling)操作从每个候选框中提取特征,用于以下分类和边界盒回归任务[11]。图1 (a)为两级探测器的基本结构。此外,单级检测器直接从输入图像中提出预测框,不需要区域建议步长,因此具有时间效率,可用于实时设备。图1 (b)为单级探测器的基本结构。

在这里插入图片描述

• Contributions

​ 本文的其余部分组织如下。对象检测器需要一个强大的骨干网络来提取丰富的特性。本文将在下面的第2节讨论骨干网。众所周知,特定于领域的图像检测器的典型管道是任务的基础和里程碑。在第3部分,本文阐述了在2019年6月之前提出的最具代表性和开创性的基于深度学习的方法。第4节描述了常用的数据集和度量。第5节系统地阐述了一般目标检测方法的分析。第6节详细介绍了目标检测的五个典型领域和几个流行的分支。第7节总结了发展趋势。

BACKBONE NETWORKS

​ 骨干网作为目标检测任务的基本特征提取器,以图像作为输入,输出相应输入图像的特征映射。用于检测的骨干网大多是去除最后的全连接层进行分类的网络。改进后的基本分类网络也可用。例如Lin等[15]增加或减少图层,或者用特殊设计的图层替换一些图层。为了更好的满足具体的需求,部分模型[9][16]利用新设计的主干进行特征提取。

​ 针对精度和效率的不同要求,人们可以选择连接更紧密的椎骨,如ResNet[11]、ResNeXt[17]、AmoebaNet[18]或轻量化骨干网络,如MobileNet[19]、ShuffleNet[20]、SqueezeNet[21]、Xception[22]、MobileNetV2[23]。当应用于移动设备时,轻量级的骨干网络可以满足要求。Wang等人[24]提出了一种新的实时目标检测系统,将PeleeNet与SSD[10]相结合,并对体系结构进行了优化,以提高处理速度。为了满足高精度和更精确应用的需要,需要复杂的骨架。另一方面,视频、摄像头等实时获取不仅需要高速的处理速度,还需要高精度的[9],这就需要精心设计的主干来适应检测体系结构,在速度和精度之间进行权衡。

​ 为了提高检测精度,采用更深、密集连接的骨干代替较浅、稀疏连接的骨干。He et al.[11]利用ResNet[25]而不是VGG[26]来捕捉丰富的特征,这种特征在Faster R-CNN[8]中由于高性能,进一步提高了精度。

​ 新型高性能分类网络可以提高目标检测的精度,降低目标检测任务的复杂性。这是进一步提高网络性能的有效方法,因为骨干网作为一个特征提取器。众所周知,特征的质量决定了网络性能的上界,这是一个需要进一步探索的重要步骤。

TYPICAL BASELINES

​ 随着深度学习的发展和计算能力的不断提高,一般目标检测领域取得了很大的进步。当基于cnn的第一个目标检测器R-CNN被提出时,做出了一系列重要的贡献,极大地促进了一般目标检测的发展。我们介绍了一些有代表性的对象检测体系结构,供初学者入门。

A. Two-stage Detectors

  1. R-CNN: R-CNN是一种基于区域的CNN检测器。Girshick等[28]提出了可用于目标检测任务的R-CNN,他们的工作首次表明在PASCAL VOC数据集[4]上使用CNN可以比基于更简单的HOG-like特征的系统显著提高目标检测性能。深度学习方法在目标检测领域的有效性和有效性得到了验证。

​ R-CNN检测器由四个模块组成。第一个模块生成与类别无关的区域建议。第二模块从每个区域方案中提取定长特征向量。第三个模块是一组特定类的线性支持向量机,用于对图像中的对象进行分类。最后一个模块是精确预测边界盒的边界盒回归器。首先,在生成区域建议时,采用了selective search的方法。然后使用CNN从每个区域方案中提取一个4096维的特征向量。由于全连通层需要固定长度的输入向量,因此区域建议特征应该具有相同的大小。本文采用固定的227×227像素作为CNN的输入大小。我们知道,在不同的图像中,目标的大小和高宽比不同,这使得第一个模块提取的区域建议在大小上不同。无论候选区域的大小或长宽比如何,作者将其周围的紧密边框中的所有像素扭曲为所需大小227×227。特征提取网络由五个卷积层和两个全连接层组成。所有CNN参数在所有类别中共享。每个类训练独立的支持向量机,不同支持向量机之间不共享参数。

​ 对较大的数据集进行预训练,然后对指定的数据集进行微调,是深度卷积神经网络快速收敛的一种很好的训练方法。首先,Girshick等人[28]在一个大规模数据集(ImageNet分类数据集[3])上对CNN进行预训练。最后的全连接层被CNNs ImageNet专用的1000路分类层所替代。下一步是使用SGD(随机梯度下降)来微调候选窗口上的CNN参数。最后一个全连接层是一个(N+1)方式的分类层(N:对象类,1:背景),它是随机初始化的。

​ 在设置正样本和负样本时,作者将其分为两种情况。首先是在微调过程中将IoU(交集比并)重叠阈值定义为0.5。在阈值以下,region proposals被定义为负样本,而在阈值之上,region proposals被定义为正样本。此外,region proposals中与groundtruth的重叠最大IoU被分配给ground-truth box.另一种情况是在训练SVM时设置参数。相比之下,对于它们各自的类,只有ground-truth box被作为正样本,并且proposal与一个类的所有ground-truth实例的重叠都小于0.3

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值