ABSTRACT
目标检测,包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD),是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中,研究人员已经做出了巨大的努力来解决这个问题,因为它在其他计算机视觉任务(如活动或事件识别、基于内容的图像检索和场景理解)中得到了广泛的应用。虽然近年来提出了许多方法,但仍然缺乏对所提出的高质量对象检测技术的全面审查,特别是对于基于高级深度学习技术的技术的技术。为此,本文深入研究了该研究领域的最新进展,包括 1)每个子方向的定义、动机和任务; 2)现代技术和基础研究趋势; 3)基准数据集和评估指标; 4) 实验结果的比较和分析。更重要的是,我们将揭示OD、SOD和COD之间的潜在关系,并详细讨论一些悬而未决的问题,并指出了几个未解决的挑战和有前途的未来工作。
Introduction
目标检测是一项具有挑战性但有用的计算机视觉任务,(目标检测)旨在识别每个给定图像或视频中各种单个对象的存在。在这项研究中,在处理相对简单的图像场景和清晰的前景对象图像时,取得了可喜的成果。然而,在处理包含放置在任意姿势的物体的图像和视频时,这个问题没有得到充分解决,形状多样,出现在杂乱和遮挡的环境中。
在过去的几十年里发表的目标检测的研究工作大致可以分为OD、SOD和COD三个方向。具体来说,OD(目标检测)旨在检测出现在每个给定图像中的所有可能的对象,而不管特定的对象类别如何。它面临着巨大的挑战,因为不同的对象,无论是在同一个对象类别中,还是在不同的对象类别中,都可能有显著的外观变化,由于其内部固有特性(例如,像猫这样的生物通常比像车辆这样的人工物体具有更可变形的外观),或外部拍摄条件(例如拍摄距离或角度),变形物体在远处可能看起来比较僵硬,而即使是刚性物体在不同的拍摄角度下也可能表现出变化。通常,目标检测算法会输出数千个物体候选框或假设,如图 1(a) 所示,这可以为弱监督学习和物体跟踪等计算机视觉任务带来诸多好处。
SOD(显著目标检测)目的是模仿视觉注意机制,突出显示从给定图像中引起我们注意的物体。这是受到人类视觉注意系统的启发,该系统可以引导人类特别注意少数自然不同的信息图像区域(自下而上显著性)或与知识、期望、奖励和特定任务等认知现象决定的某些对象类别相关(自上而下显著性)。与OD类似,自底向上的SOD面临着在无约束对象类别中存在较大的外观变化的挑战,而自顶向下的SOD面临着如何有效地将期望的视觉刺激(通常在语义层面)与视觉场景中相应的区域关联起来的挑战。通常,SOD算法根据获得的显著性图输出有限数量的目标区域,如图1(b)所示。它们还可以用于广泛的计算机视觉任务,如图像检索和对象分割。
在显著目标检测(SOD)任务中,“自底向上”(bottom-up)和“自顶向下”(top-down)是两种不同的检测方法或策略:
1. 自底向上的SOD(Bottom-up SOD):
- 定义:自底向上的方法基于图像的低层次特征(如颜色、纹理、对比度等)来进行显著性目标检测。这些方法依赖于图像本身的视觉特征,而不考虑高级的语义信息或对象类别。
- 特点:这种方法从图像的局部或全局特征出发,逐步构建出显著性区域。因此,自底向上的SOD能够在没有任何特定对象类别信息的情况下检测出显著的区域。
- 挑战:由于不依赖语义信息,自底向上SOD在处理具有较大外观变化或复杂背景的无约束对象类别时,容易受到局限性,因为它很难捕捉到复杂的上下文关系。
语义依赖较弱:
- 自底向上的SOD方法通常不会识别图像中的具体对象类型(如人、车、猫等),而是只关注像素级别的对比度、颜色、边缘等基础特征。换句话说,它并不“理解”图像中是什么对象,只是根据某些特征差异来检测出可能的显著区域。
- 由于缺乏对对象类别的理解,它可能会误认为一些不重要的背景元素是显著目标,因为它无法从语义上判断某个对象是否是有意义的。
上下文依赖较弱:
- 上下文依赖是指算法利用图像中不同对象之间的关系以及场景中的整体信息来帮助做出决策。自底向上的方法不依赖于这种场景理解。比如,在复杂的场景中,自底向上的SOD可能只基于视觉对比来检测目标,而不会考虑该目标与其周围环境的互动或关系。
- 例如,在一个包含许多相似颜色物体的场景中,自底向上方法可能无法利用场景中的上下文来判断哪个物体是更重要的或显著的。
2. 自顶向下的SOD(Top-down SOD):
- 定义:自顶向下的方法利用高层语义信息或预先定义的对象类别,指导显著目标检测。它通常结合预训练的分类模型或对象检测模型,将目标对象类别与视觉场景中的特定区域关联起来。
- 特点:这种方法从语义层面进行处理,基于任务期望或预先定义的对象类别进行显著目标的检测。例如,模型可以使用上下文信息来预测哪些区域可能包含感兴趣的对象。
- 挑战:自顶向下的SOD面临着如何将抽象的语义信息与图像中的低层次视觉特征有效关联起来的问题。这种方法可能在检测不在预定义类别中的对象时表现不佳。
低层次特征:指的是直接从图像中提取的基本视觉信息,如像素、颜色、边缘、梯度、纹理等。这些特征没有任何语义层面的含义,只是对图像的表面属性的描述。
高级语义特征:则是通过多层处理、模型学习后产生的,与物体类别或场景内容相关的抽象特征。例如,猫的耳朵、尾巴、整体轮廓、常见姿势等特征会在深层网络中形成抽象的语义信息,帮助模型识别出图像中的“猫”。
对比总结
- 自底向上:从图像的低层特征出发,适合在无约束类别情况下检测显著性区域,但对语义和上下文依赖较弱。
- 自顶向下:利用语义信息进行引导,适合在特定类别或场景下进行显著性检测,但依赖于语义层面的任务定义。
目标检测的第三个方向是COD,与OD不同,COD(伪装目标检测)旨在从给定图像中检测多个预定义的目标类别。它不仅需要识别可能包含感兴趣对象的图像区域,还需要识别每个检测图像区域的特定对象类别。与SOD相比,COD具有完全不同的动机,即它朝着解决纯计算问题的方向发展,而不了解人类视觉系统中的功能,例如视觉注意。通常,将COD转化为多类分类问题,训练判别分类函数,将提取的图像区域在相应的特征域中进行分离。如何处理类内外观变化和类间外观相似是COD研究面临的主要挑战。如图1(c)所示,COD方法通常输出多个图像区域,这些图像区域被指定为已识别的目标类别。COD可以应用于场景解析和人类动作识别等计算机视觉任务。
为了解决目标检测中具有挑战性的问题