江大白 | 小目标物体检测方法：基于距离相似度的标签分配策略（附论文及源码）

最新推荐文章于 2025-07-19 19:21:52 发布

原创最新推荐文章于 2025-07-19 19:21:52 发布 · 1.5k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#opencv #人工智能 #计算机视觉 #python #信息可视化 #相似度 #YOLO

深度学习拓展阅读同时被 2 个专栏收录

991 篇文章

订阅专栏

CV-目标检测专栏

145 篇文章

订阅专栏

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：小目标物体检测方法：基于距离相似度的标签分配策略（附论文及源码）

导读

在计算机视觉中，小目标检测由于信息不足而具有挑战性。对此，本文提出相似距离（SimD）策略，提升检测准确性。SimD自适应学习超参数，适应不同数据集和物体大小，在多个数据集上表现出色，特别是在AI-TOD数据集上显著提高精度，且无需设置超参数！

论文链接：https://arxiv.org/pdf/2407.02394v3

代码链接：https://github.com/cszzshi/SimD

摘要

小物体检测正成为计算机视觉中最具挑战性的任务之一，这是因为物体尺寸有限以及信息不足。标签分配策略是影响物体检测准确性的一个关键因素。尽管存在一些针对小物体有效的标签分配策略，但大多数策略侧重于降低对边界框的敏感度以增加正样本的数量，并且具有一些需要设置的固定超参数。然而，更多的正样本并不一定带来更好的检测结果；实际上，过多的正样本可能导致更多的假阳性。在本文中，我们介绍了一种简单而有效的策略，名为相似距离（SimD），用于评估边界框之间的相似度。该提出的策略不仅考虑了位置和形状的相似性，而且还能够自适应地学习超参数，确保它可以适应不同的数据集及数据集中各种大小的物体。我们的方法可以轻松应用于常见的基于锚点的检测器中，用来替代交并比（IoU）进行标签分配和非极大值抑制（NMS）。在四个主流的小型物体检测数据集上的大量实验表明了我们方法的优越性能，特别是在 AI-TOD 数据集上，对于非常小型的目标，我们的方法分别高出最先进的竞争对手 1.8 个 AP 点和 4.1 个 AP 点。代码可在以下网址获取：https://github.com/cszzshi/SimD。

1、介绍

随着无人机技术和自动驾驶技术的普及，物体检测的应用在日常生活中变得越来越广泛。通用物体检测器在准确性和检测速度方面已经取得了显著的进步。例如，YOLO系列的最新版本YOLOv8在COCO检测数据集上实现了53.9%的平均精度均值（mAP），并且当使用TensorRT在NVIDIA A100 GPU上实现时，检测一张图像中的物体只需3.53毫秒。然而，尽管通用物体检测器取得了这些显著进展，当它们直接应用于小型物体检测任务时，其准确性会急剧下降。

在最近的一项关于小型物体检测的综述中，Cheng等人根据其平均面积将小型物体分为三个类别（极其小、相对小和一般小）。小型物体检测面临的两大挑战是信息损失和正样本的缺乏。有许多可能的方法可以提高小型物体检测的准确性，如特征融合、数据增强和超分辨率处理。

因为足够多的高质量正样本对于物体检测至关重要，因此标签分配策略是影响最终结果的核心因素。物体越小，交并比（IoU）指标的敏感度越高，这是无法像标记常规物体那样标记同样多的正样本的主要原因。图1展示了传统基于锚点与无锚点的指标以及我们提出的SimD指标之间的简单比较。

目前关于小型物体标签分配策略的研究主要集中在减少对边界框大小的敏感度。从这个角度来看，Xu等人提出使用点距离（DotD）作为分配指标来代替IoU。之后，提出了NWD和RFLA尝试将真实值和锚点建模为高斯分布，然后使用这两个高斯分布之间的距离来评估两个边界框。事实上，这些方法已经在标签分配方面取得了相当大的进步，但也存在一些未考虑的问题。

首先，大多数这些方法专注于减少对边界框大小的敏感度，从而增加正样本的数量。然而，正如我们知道的那样，过多的正样本可能会对物体检测器产生负面影响，导致许多假阳性。其次，这些评价指标的本质是衡量两个边界框之间的相似度。对于基于锚点的方法，考虑的是真实值与锚点之间的相似性。这种相似性包括两个方面：形状和位置。然而，有些方法只考虑边界框的位置，其他方法同时考虑形状和位置，但是它们也有一个需要选择的超参数。

最后，虽然小型物体检测数据集中物体的大小倾向于相当接近，但不同物体之间仍然存在尺度差异。例如，AI-TOD数据集中物体的大小范围从2到64像素。而在VisDrone2019数据集中，这种差异更为明显，因为它包含了小型和常规大小的物体。实际上，物体越小，获得正样本就越困难。不幸的是，大多数现有方法可能较少关注这个问题。

在本文中，为了解决这些问题，我们引入了一个新的评价指标来取代传统的IoU，我们的方法处理流程如图2所示。本文的主要贡献包括：

我们提出了一种简单而有效的策略，名为相似距离（SimD），用于评估两个边界框之间的关系。它不仅考虑了位置和形状的相似性，而且可以有效地适应不同的数据集和数据集中不同大小的物体，无需设置任何超参数。
大量实验证明了我们方法的有效性。我们使用几个通用物体检测器，并简单地用基于我们SimD指标的方法替换了基于IoU的分配模块，这样我们在四个主流小型物体检测数据集上实现了最前沿的性能。

2、相关工作

近年来，物体检测技术在各行各业的应用日益广泛。这项技术带来了极大的便利。例如，可以通过识别遥感图像中的地面物体来迅速开展救援行动。随着深度学习技术的发展，特别是引入了ResNet之后，检测的准确性和速度有了显著提高。

通用的物体检测器可以分为两类：单阶段检测器和双阶段检测器。双阶段检测器首先生成一系列候选区域，然后确定这些区域中物体的位置和类别。这类算法包括R-CNN、Fast R-CNN以及Faster R-CNN。单阶段检测器的结构更为简单，可以直接从输入图像输出物体的坐标和类别。一些经典的单阶段检测器包括YOLO和SSD。

A. 微小物体检测

尽管深度学习技术在物体检测领域取得了重大进展，但对于微小物体的检测精度会急剧下降。通常将尺寸小于某个阈值的物体定义为小物体。例如，在Microsoft COCO 数据集中，如果物体的面积小于等于1024，则认为它是小物体。然而，在很多情况下，感兴趣的物体实际上比上述定义的小得多。例如，在AI-TOD数据集中，物体的平均边长仅为12.8像素，远小于其他数据集中的尺寸。

正如前文所述，由于感兴趣物体极其微小，微小物体检测面临三个主要挑战。首先，大多数物体检测器采用下采样来进行特征提取，这会导致微小物体的信息大量丢失。其次，由于包含的有效信息有限，小物体很容易受到噪声干扰。最后，物体越小，对边界框的变化就越敏感。因此，如果我们使用传统的标签分配指标（如IoU、GIoU、DIoU和CIoU）来进行物体检测，那么为微小物体获得的正样本数量将会非常少。

为了提高微小物体检测的准确性和效率，已经提出了多种方法。例如，从数据增强的角度来看，Kisantal等人提出了通过复制微小物体、随机变换副本并将其粘贴到图像的新位置来增加训练样本数量的方法。

B. 标签分配策略

标签分配策略在物体检测中扮演着重要角色。根据每个标签严格为负或严格为正的原则，这些策略可以分为硬标签分配策略和软标签分配策略。在软标签分配策略中，根据计算结果为不同的样本设置不同的权重，例如GFL 、VFL、TOOD 和DW。硬标签分配策略还可以进一步分为静态和动态策略，这取决于指定正负样本的阈值是否固定。静态标签分配策略包括基于IoU和DotD指标的策略以及RFLA。动态标签分配策略的例子包括ATSS、PAA、OTA和DSLA。从另一个角度来看，标签分配策略可以分为预测基和非预测基策略。预测基方法根据真实标签与预测边界框之间的关系来给样本分配正/负标签，而非预测基方法则仅根据锚点或其他现有信息来分配标签。

C. 针对微小物体的标签分配策略

尽管针对物体检测的标签分配策略已有许多研究，但大多数此类策略都是为传统数据集设计的，专门针对微小物体的设计较少。当直接将这些传统的标签分配策略用于微小物体检测时，它们的准确性会显著下降。迄今为止，专门为微小物体设计的标签分配策略及指标主要包括S3FD、DotD、NWDRKA和RFLA。

在S3FD中，首先降低阈值（从0.5降至0.35），以获得更多的针对真实标签的正样本；随后进一步将阈值降至0.1，以获取那些未被初次阈值降低处理的真实标签的正样本。然而，S3FD仍然使用传统的IoU指标来计算真实标签与锚点之间的相似性。为了克服IoU指标的弱点，引入了新颖的DotD公式，以减少对边界框尺寸的敏感性。基于此指标，可以为真实标签获取更多的正样本。在NWD-RKA中，引入了归一化的Wasserstein距离作为IoU的替代，并采用基于排名的策略来将前k个样本标记为正样本。RFLA则从感受野的角度探索真实标签与锚点之间的关系，在此基础上，将真实标签和锚点建模为高斯分布。然后，基于Kullback-Leibler散度（KLD）计算这两个高斯分布之间的距离，以此代替IoU指标。

3、方法

A. 边界框间的相似性距离

标签分配中最关键的步骤之一就是计算一个能够反映不同边界框之间相似性的值。具体来说，在基于锚点的标签分配策略中，在分配标签之前必须量化锚点与真实标签之间的相似性。常见的标签分配指标，如IoU、GIoU、DIoU 和CIoU，通常基于锚点与真实标签之间的重叠程度。这些指标存在一个严重的问题：如果重叠为零，这种情况对于微小物体来说很常见，那么这些指标可能会变得无效。一些更适合的方法使用基于距离的评估指标，甚至使用高斯分布来建模真实标签和锚点，例如DotD、NWD 和RFLA。我们在表I中从三个方面对现有指标和我们提出的SimD指标进行了简单的比较。例如，DotD仅考虑位置相似性，可能无法适应数据集中不同大小的物体，因此不够全面或适应性强。NWD和RFLA不具备适应性，因为它们分别有一个需要设置的超参数C和β。遵循现有的方法，我们考虑提出一种不需要任何超参数的自适应方法。

在本文中，我们介绍了一种新的指标称为相似性距离（SimD），以更好地反映不同边界框之间的相似性。相似性距离定义如下：

其中，m和n为：

为了便于标签分配，我们使用指数函数将相似性距离（SimD）的值缩放到0到1之间。如果两个边界框完全相同，则根号下的值将是0，因此SimD将等于1。如果两个边界框有很大的差异，这个值将会非常大，所以SimD将接近于0。

B. 基于相似性距离的检测器

本节定义的新型SimD度量能够很好地反映两个边界框之间的关系，并且易于计算。因此，它可以替代IoU（交并比）应用于需要计算两个边界框相似性的场景。

基于SimD的标签分配 在传统的目标检测器中，例如Faster R-CNN、Cascade R-CNN以及DetectoRS，区域提议网络（RPN）和R-CNN模型的标签分配策略通常采用MaxIoUAssigner。MaxIoUAssigner考虑了三个阈值：正样本阈值、负样本阈值和最小正样本阈值。对于那些与真实标签的IoU高于正样本阈值的锚点被视为正样本；IoU低于负样本阈值的锚点视为负样本；而IoU介于正样本阈值和负样本阈值之间的锚点则被忽略。针对小目标检测，Xu等人引入了RKA和HLA标签分配策略，这些策略不使用固定的阈值来划分正负样本。在RKA策略中，简单地选取与每个真实标签关联的前k个锚点作为正样本，这种策略能够增加正样本的数量，因为正样本的分配不受正样本阈值的限制。然而，引入过多低质量的正样本可能会导致检测精度下降。

本文遵循传统的MaxIoUAssigner策略，并简单地使用SimD替代IoU。正样本阈值、负样本阈值和最小正样本阈值分别设置为0.7、0.3和0.3。我们的标签分配策略命名为MaxSimDAssigner。

基于SimD的非极大抑制 非极大抑制（NMS）是后处理中最关键的组成部分之一。其目的是通过仅保留最佳检测结果来消除重复检测的预测边界框。在传统的NMS过程中，首先计算得分最高的边界框与其他所有边界框之间的IoU。然后，IoU高于一定阈值的边界框将被移除。考虑到SimD的优点，我们可以简单地将其用于NMS中代替传统的IoU度量。

4、实验

实验设置

在接下来的一系列实验中，我们使用配备有一块NVIDIA RTX A6000 GPU的计算机，并基于目标检测框架MMDetection及PyTorch实现各种模型。我们选用诸如Faster R-CNN、Cascade R-CNN和DetectoRS等通用目标检测器作为基线模型，并简单地用我们的SimD分配模块替换原有的MaxIoUAssigner模块。我们的方法可以有效地适应任何主干网络和基于锚点的检测器。遵循主流设置，对于所有的模型，均采用预训练于ImageNet上的ResNet-50-FPN作为主干网络，并使用随机梯度下降(SGD)作为优化器，动量设置为0.9，权重衰减为0.0001。批量大小设置为2，初始学习率为0.005。在训练和测试阶段，RPN提出的候选框数量均为3000个。对于VisDrone2019数据集，训练周期数设置为12个，学习率在第8个和第11个周期时衰减。对于AI-TOD、AI-TODv2和SODA-D数据集，训练周期数为24个，学习率在第20个和第23个周期时衰减。对于非极大抑制(NMS)，我们使用IoU度量，RPN的IoU阈值设置为0.7，R-CNN的IoU阈值设置为0.5。配置的其他方面，如数据预处理和管道流程，遵循MMDetection中的默认设置。

为了便于与先前的研究成果进行比较，在测试阶段，我们使用AI-TOD基准评价指标，包括平均精度(AP)、AP0.5、AP0.75、APvt、APt、APs和APm，这些指标适用于AI-TOD、AI-TODv2和VisDrone2019数据集。对于SODA-D数据集，则使用COCO评价指标。

结果

消融实验

在我们提出的方法中，一个重要的操作是基于真实标签和锚点的宽度和高度进行归一化。为了验证归一化操作的有效性，我们进行了一系列消融研究。如表VI所示，我们分别比较了不进行归一化、仅归一化宽度、仅归一化高度以及同时归一化宽度和高度的情况。实验结果显示，归一化操作带来了3.5个点的性能提升，这主要是由于该操作使模型能够更好地适应数据集中不同尺寸的目标，并且归一化参数m、n可以根据不同的数据集进行自适应调整。

分析

从表II至表V所示的实验结果来看，我们发现我们的方法在这四个数据集上均实现了最高的平均精度(AP)。此外，在AI-TOD、AI-TODv2以及VisDrone2019数据集上，我们的方法对于非常小、较小和小尺寸的目标实现了最佳的结果。我们的方法主要实现了三个方面的成就：

首先，我们的方法有效地解决了针对极小目标检测的低精度问题。最根本的原因在于我们的方法充分考虑了两个边界框之间的相似性，包括位置和形状的相似性，因此，在使用SimD度量时，只有质量最高的锚点才会被选作正样本。相比于VisDrone2019数据集，在AI-TOD和AI-TODv2数据集上的性能提升更为显著，因为这两个数据集中的目标物体更小，这一现象也反映了我们的方法在极小目标检测上的有效性。

其次，我们的方法能够很好地适应数据集中不同尺寸的目标。如表IV所示，我们的方法不仅在AP值上表现最佳，而且在APvt值上也明显优于其他方法。主要原因在于SimD度量在计算边界框之间的相似性时应用了归一化处理，这样可以消除由不同尺寸的边界框带来的差异。一些典型的检测结果如图4所示。

最后，我们的方法在四个不同的数据集上均实现了当前最优的结果。尽管不同数据集中目标的特性有所差异，我们在计算归一化参数时利用了训练集中真实标签与锚点之间的关系，使得我们的度量能够自动适应不同的数据集。此外，我们的公式中无需设置任何超参数。

5、总结

在本文中，我们指出大多数现有的方法可能无法自动适应不同尺寸的检测对象，并且包含了一些需要选择的超参数。为此，我们提出了一种新的评估指标，名为相似距离（SimD），它不仅考虑了位置和形状的相似性，而且可以自动适应不同的数据集及数据集中不同尺寸的对象。此外，我们的公式中没有超参数。最后，我们在四个经典的微小目标检测数据集上进行了广泛的实验，我们的方法取得了最先进的成果。尽管我们提出的SimD指标具有自适应性，但它仍然基于具有固定阈值的现有标签分配策略。在未来，我们计划进一步提高微小目标检测中标签分配的有效性。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。