Visible and Clear: Finding Tiny Objects in Difference Map

通街市密人有

已于 2024-07-18 20:27:29 修改

阅读量1.3k

点赞数 10

分类专栏：目标检测 UNet 文章标签：计算机视觉人工智能深度学习

于 2024-07-17 17:05:36 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43790925/article/details/140500060

版权

Visible and Clear: Finding Tiny Objects in Difference Map

在这里插入图片描述

论文链接：https://arxiv.org/abs/2405.11276

项目链接：https://github.com/Hiyuur/SR-TOD (ECCV2024)

Abstract

微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强，这种方法受到虚假纹理和伪影的严重影响，难以使微小物体的特征清晰可见，便于检测。为了解决这一问题，我们提出了一种自重构微小目标检测(SR-TOD)框架。我们首次在检测模型中引入了自重构机制，并发现了自重构机制与微小目标之间的强相关性。具体地说，我们在检测器的颈部之间施加一个重建头，构建重建图像与输入的差分图，显示出对微小物体的高灵敏度。这启发我们在差分图的引导下增强微小物体的弱表征。因此，提高了探测器对微小物体的可见性。在此基础上，我们进一步开发了差分图引导特征增强(DGFE)模块，使微小特征表示更加清晰。此外，我们进一步提出了一个新的多实例anti-UAV数据集，该数据集被称为DroneSwarms数据集，它包含了大量迄今为止平均尺寸最小的微型无人机。在DroneSwarms数据集和其他数据集上进行的大量实验证明了该方法的有效性。

1 Introduction

物体检测的子领域是识别和分类具有小尺寸的物体，被称为小物体检测。根据MS COCO[31]中的设置，如果一个目标的面积等于或小于32 ×32像素，则该目标为目标。AI-TOD基准[49]对这一定义进行了细化，将2-8像素的目标划分为“非常小”，8-16像素的目标划分为“极小”，16-32像素的目标划分为“小”。我们统一地称这些物体为“微小”物体。微小物体通常出现在各种现实世界的应用中，例如自动驾驶，anti-UAV，航空成像，工业检测，和行人检测，通常受到相当大的成像距离或物体固有的微小尺寸的限制。尽管具有相关性，但微小目标检测(TOD)仍然是一项艰巨的工作，即使是最先进的探测器也难以弥合微小和正常尺寸目标检测之间的性能差距[11]。在这一领域寻求改进的方法具有重要的理论和实践意义。

相对于一般目标检测的常见难题，如目标遮挡，微小目标检测提出了一些独特的挑战。最重要的挑战来自微小物体的信息丢失问题[11]。主流的检测架构采用骨干网络，如ResNet等[16,21,50]，用于特征提取。尽管如此，这些框架经常实施降采样操作，旨在消除噪声激活和降低特征地图的空间分辨率，这一过程不可避免地导致微小物体的信息丢失。此外，微小物体本身有限的尺寸和缺乏信息含量也阻碍了TOD，导致在整个特征提取阶段大量信息丢失。这种物体表征的退化严重阻碍了检测头定位和区分微小物体的能力。因此，微小的物体对探测器来说是无法察觉的。特别是，在这些条件下，“非常微小”物体的微弱信号几乎被消灭，使探测器难以定位和识别它们。如图1所示，特征热图显示了检测模型对微型无人机的激活信号，这些信号对于微小物体来说往往很弱。例如，左下角的微小物体几乎消失了，影响了检测性能。这表明许多微小的物体对探测器来说是不够可见的。因此，在微小目标检测任务中，通用检测器的性能显著下降[49,54]。

在这里插入图片描述

现有的许多方法[1 - 3,27,35,37]通常使用超分辨率架构的生成方法来缓解由于信息丢失而导致的微小目标的低质量表示问题。这些方法通常将生成对抗网络[20]纳入目标检测框架，构建高分辨率和低分辨率样本对。该方法使生成器能够学习恢复微小物体的扭曲结构，旨在增强低质量微小物体的特征。然而，这些方法通常需要大量的中型和大型样本，这对在微弱信号的微小物体上执行超分辨率提出了重大挑战。此外，这些方法容易产生虚假纹理和伪影，降低了检测性能[14]。值得注意的是，超分辨率架构带来了大量的计算开销，使端到端优化变得复杂[11]。

与复杂的超分辨率架构下效率低下的特征增强相比，骨干网中丢失信息的恢复是一种更直观、更合理的策略。本文首次在目标检测框架中引入了一种简单有效的图像自重建机制。检测模型提取的特征映射通过重构头进行恢复，重构头在像素级受均方误差约束。需要注意的是，图像重建是一项位于低层次视觉域的任务，对像素变化非常敏感[7]。由于我们从检测模型中重建输入图像，因此难以恢复的图像区域可能对应于骨干网络特征提取过程中结构和纹理信息严重丢失的区域，特别是微小物体。利用重建图像与原始图像之间的差异，我们可以精确地找出经历了重大信息丢失的区域，从而为检测微小物体提供潜在的先验知识。因此，我们从自重构图像中减去原始图像，构建差分图，如图1所示。我们首先发现自重构差分图与微小物体之间存在很强的相关性。在图1中几乎被消除的“非常微小”的物体也可以在差值图中清晰地显示出来。图像中大多数微小物体在差分图中都有明显的激活。此外，差分图还保留了微小物体的主要结构。我们认为，差分图显示了探测器对感兴趣区域的像素级识别，以及微小物体的潜在位置和结构。总的来说，差分图使得微弱信号的微小物体更容易被发现。

因此，在这一发现的基础上，我们进一步将差分图中的先验信息整合到目标检测模型中。我们开发了一个简单有效的差分图引导特征增强模块，该模块通过沿通道维度重新加权差分图来计算元素明智的注意力矩阵，从而对微小物体进行特征增强。因此，通过将重建损失转换为专门针对微小物体的约束，我们增强了模型检测此类物体的能力，使微小物体对检测器更清晰。

此外，我们收集了一个新的anti-UAV数据集，名为DroneSwarms，这是一个典型的在各种复杂背景和光照条件下的微小目标检测场景。我们的DroneSwarms是anti-UAV中平均尺寸最小的(约7.9像素)。在我们的数据集和另外两个数据集上的实验表明，我们的方法优于其他竞争方法。

本文的贡献可以概括为以下几点：

提出了一种自重构微小目标检测(SR-TOD)框架，首次揭示了差分图与微小目标之间的鲁棒关联，从而提供了微小目标位置和结构的先验信息。我们有效地将微小物体通常丢失的信息转化为可操作的预先指导。
设计了差分图引导特征增强(DGFE)模块，改进了微小物体的特征表示，使其更清晰。DGFE模块可以方便灵活地集成到一般探测器中，有效提高微小目标检测的性能。
提出了一种新的anti-UAV微小目标检测数据集，命名为DroneSwarms，该数据集具有目前最小的平均目标尺寸。在我们的数据集和另外两个具有大量微小目标的数据集上进行了广泛的实验，验证了我们对竞争方法的有效性。

2 Related Work

2.1 目标检测

目标检测算法有多种类型。两阶段检测器将提取的特征映射馈送到区域建议网络中，在第一阶段提取建议。然后，在第二阶段，他们根据这些建议执行分类和回归任务，提供较高的识别和定位精度。经典的两级检测器有Fast R-CNN[18]、Faster R-CNN[40]、Cascade R-CNN[6]等。单级检测器直接对输入图像进行目标定位和分类，提供更快的处理速度。一级检测器的代表性例子包括YOLO系列[4,38,39]和RetinaNet[30]。此外，FCOS[47]、FoveaBox[25]等无锚点算法基于中心点预测目标，而CornerNet[26]、Grid R-CNN[33]、RepPoints[53]等方法基于关键点进行预测。最近的检测器如DETR[8]、Deformable DETR[60]和Sparse R-CNN[45]探索了端到端目标检测的新范式。这些算法通常使用FPN[29]作为颈部模块，这使得我们的方法很容易集成到大多数通用检测器中。

2.2 微小目标检测

通用检测器在检测大中型物体方面表现良好，但在检测微小物体方面仍面临重大挑战。近年来，微小目标检测的研究主要集中在数据增强、尺度感知、上下文建模、特征模仿和标签分配[11]。

数据增加。Krisantal等[24]通过复制粘贴小目标来增加样本数量。DS-GAN[5]设计了一种新的数据增强pipeline，用于生成小目标的高质量合成数据。

尺度感知。Lin[29]等人利用特征层次金字塔和特征融合提出了目前最流行的多尺度网络特征金字塔网络。Singh等[44]设计了图像金字塔的尺度归一化(SNIP)来选择一些实例进行训练。PANet[32]通过双向路径丰富了特征层次，利用精确的定位信号增强了更深层次的特征。NAS-FPN[17]、Bi-FPN[46]和Recursive-FPN[36]是在FPN的基础上进一步发展的。Gong等[19]通过设置融合因子来调节FPN相邻层之间的耦合，优化特征融合，提高模型性能。Yang等[52]设计了一种级联稀疏查询机制，在保持快速推理速度的同时，有效利用高分辨率特征来增强小目标的检测性能。

上下文建模。Chen等人[9]利用包含建议补丁的上下文区域表示进行后续识别。SINet[22]引入了一个上下文感知的RoI池层来维护上下文信息。

特征模仿。许多方法[1,2,27]利用生成对抗网络在小目标上执行超分辨率。Noh等[35]通过扩张卷积缓解了高分辨率特征和低分辨率特征感受野之间的不匹配。Deng等[14]提出了一种特征纹理传递模块来扩展特征金字塔，使新的特征层能够包含更详细的小物体信息。

标签分配。ATSS[56]根据阳性和阴性样本的统计特征自适应调整。Xu等人[51]提出了一种简单而有效的策略，称为基于接受场的标签分配(RFLA)，以缓解基于anchor和anchor-free的检测器中的尺度-样本不平衡问题。

许多小目标检测方法都没有关注信息丢失这一关键问题。特征模仿方法试图通过生成来缓解这一问题，但往往会制造虚假的纹理和伪影[11,14]。相反，我们引入了一种图像自重建机制来识别重要信息丢失的区域，并利用这种先验知识来提高小目标检测性能。

2.3 Anti-UAV数据集

无人机由于体积小、成本低等特点，在检查、监视、军事等领域得到了广泛的应用。然而，非法无人机飞行带来了许多潜在风险并威胁到公共安全，因此anti-UAV措施成为一项重要任务。由于无人机实际上体积很小，而且经常在中高海拔飞行，因此在相机拍摄的图像中，它们往往显得非常小。因此，anti-UAV技术非常适合微小目标检测的应用。据我们所知，目前该领域有三个公开可用的可见光anti-UAV数据集。

MAV-VID[41]。该数据集由64个视频序列组成，其中包含从多个视点捕获的单个无人机，目标主要位于图像的中心区域。无人机的规模相对较大，平均尺寸约为166像素。

Drone-vs-Bird[12]。该数据集由77个视频序列组成，用于区分无人机和鸟类目标。数据集中无人机的平均尺寸约为28像素。

DUT Anti-UAV[57]。数据集分为两个子集：检测和跟踪。该数据集中的大多数图像包含单个目标，几乎没有非常小的目标。

现有的anti-UAV数据集通常每个图像单独包含一个无人机实例，很少有微小物体，几乎没有非常微小的物体。这与anti-UAV措施的实际场景不匹配，限制了anti-UAV任务中微小目标检测的发展和应用。为此，我们引入了迄今为止最小平均目标尺寸的第一个多实例anti-UAV数据集，DroneSwarms。

3 Method

3.1 总体架构

本文针对骨干网特征提取过程中信息丢失严重的主要挑战，提出了一种基于图像自重建机制的微小目标检测框架，如图2所示。最初，图像被送入骨干网络，骨干网络从该输入中提取特征，并将特征映射传递给颈部模块(通常是FPN)[29]，以创建从P2到P5的多尺度特征金字塔。根据当前主流探测器的架构，微小物体检测的任务被指定为P2。因此，我们的自我重建机制与探测器的接口只通过P2发生。我们将P2输入重构头，这将在第3.2节中详细介绍。重建头生成的图像在尺寸上与原始输入一致。通过将重建图像与原始图像相减，取绝对值，并在三个颜色通道上取平均值，得到差分图。我们将差分图和P2都输入到差分图引导特征增强(DGFE)模块中，这将在第3.3节中详细介绍。DGFE模块基于差分图的先验知识增强P2中的特定微小目标特征，得到P2’。这个增强的特征图P2’取代了原来的P2作为特征金字塔的底层，随后被输入到检测头中。请注意，一些单级检测器[30]完全依赖于低分辨率的特征图P3，因此我们的框架也可以使用P3进行图像重建。由于特征金字塔网络(Feature Pyramid Networks, FPN)[29]及其变体被广泛采用作为颈部模块，我们的框架很容易与大多数当代检测模型集成。

在这里插入图片描述

3.2 差分图

骨干网特征提取固有的降采样过程不可避免地会造成目标信息的丢失。由于微小物体的尺寸有限，这种损失尤其严重。在这种情况下，微小物体的微弱信号几乎被消除，使得检测头很难从这种低质量的表示中进行预测[11]。针对这一问题，我们在FPN框架中重新考虑了不同层次特征映射的属性。考虑到高级别、低分辨率特征具有丰富的语义内容，而低级别、高分辨率特征具有更多的局部细节和位置信息，我们倾向于使用低级别特征图进行图像重建。

U-Net[42]架构通常用于图像重建任务，与流行的目标检测模型FPN模块有相似之处。因此，我们设计了一个简单的重构头插入FPN的自顶向下路径，如图2所示。给定具有 $C$ 个通道、大小为 $H \times W$ 的底层特征映射 $X$ ，上采样结果 $\in \mathbb{R}^{\frac{c}{2}×2H×2W}$ 可计算为
$Up(X)=\delta(Conv2(\delta(Conv1(TranConv(X)))))), \tag{1}$
式中 $δ$ 为整流线性单位(ReLU)[34]。Conv1和Conv2表示核大小为 $C\times C\times 3\times 3$

最低0.47元/天解锁文章