本文来源公众号“计算机视觉研究院”,仅用于学术分享,侵权删,干货满满。
原文链接:https://mp.weixin.qq.com/s/PybgsuJ4BDXU_F10mS9BSA
目标检测在机器人视觉中起着关键作用,核心是准确识别图像中的目标并定位其位置。然而,许多现有方法存在局限性,尤其是在有效实现一对多匹配策略方面。
PART/1
概述
为解决这些挑战,我们提出了NAN-DETR(多锚点加噪检测Transformer)——一种基于DETR(检测Transformer)的创新框架。NAN-DETR为基于Transformer的目标检测引入三项关键改进:基于解码器的多锚点策略、中心化加噪机制,以及完全交并比(CIoU)损失的融合。多锚点策略通过为每个目标分配多个锚点,优化一对多匹配过程,显著提升检测精度。中心化加噪机制通过向检测框注入可控噪声,减轻锚点间的冲突,增强模型的鲁棒性。此外,与传统交并比(IoU)损失相比,CIoU损失在计算中融入了宽高比和空间距离信息,能实现更精准的边界框预测。尽管NAN-DETR在实时处理能力上未获大幅提升,但其优异性能使其成为各类目标检测场景中极具可靠性的解决方案。
PART/2
背景
目标检测仍是机器人视觉领域的核心任务,其主要目标是准确识别图像中的物体并对其进行定位。多年来,多种方法应运而生,包括具有影响力的R-CNN系列及其后续变体(Ren等,2015;Zhang等,2020)。例如,FoveaBox(Kong等,2020)提出了一种无锚点检测框架,利用多级特征金字塔在不同尺度上实现高质量的检测结果。同时,Soft-NMS(Bodla等,2017)引入了一种先进的非极大值抑制技术,在目标密集的场景中调整检测分数,从而提高准确率。传统方法通常依赖一对多的标签分配策略,即多个预测结果被分配到同一个真实边界框,这一过程通常通过候选区域、锚点或窗口中心来实现。尽管这些方法取得了成功,但它们往往严重依赖复杂的、人工设计的组件,如非极大值抑制(NMS)和锚点生成,这可能导致效率低下以及在适应性方面存在固有局限性。
检测Transformer(DETR)(Carion等,2020)的出现标志着目标检测领域的重大转变,它将该任务重新定义为集合预测问题,从而摒弃了对NMS和锚点等传统组件的需求。通过采用基于Transformer的编码器-解码器架构(Vaswani等,2017),并利用匈牙利算法(Kuhn,1955)实现一对一的匹配策略,DETR支持直接的端到端优化,简化了检测流程。然而,尽管有这些创新,DETR的应用仍受到诸如收敛缓慢等问题的限制,且其固有的一对一匹配策略带来了挑战,这通常会导致训练过程中监督信号稀疏。
为了缓解原始DETR框架中存在的固有问题,人们随时间开发了多种增强方法。例如,REGO(Chen Z.等,2022)通过针对特定区域优化特征表示来提升小目标检测能力。Salience-DETR(Hou等,2024)通过强调图像中的显著目标来提高准确率。此外,SMCA(Gao等,2021)采用空间调制的交叉注意力机制来优化定位,而Sparse-DETR(Roh等,2022)引入了稀疏采样策略以降低计算负载,使其更适用于实时应用。像UP-DETR(Dai等,2022)这样的方法利用无监督预训练来在数据稀缺的环境中提升性能,而WB-DETR(Liu F.等,2021)通过移除CNN骨干网络来简化检测,转而依赖纯基于Transformer的架构。Dynamic DETR(Dai等,2021)通过动态注意力机制增强了灵活性,Efficient DETR(Yao等,2021)通过优化资源使用降低了模型复杂度。这些方法共同作用,通过提高训练效率、检测准确率和对不同目标检测任务的适应性,助力完善DETR架构。
近期的进展表明,增强特征学习和提高检测准确率对提升目标检测性能是有效的。Co-DETR(Zong等,2023)将目标查询分配与辅助查询解耦,以实现更广泛的特征捕获,而Group DETR(Chen等,2023)和NMS DETR(Ouyang-Zhang等,2022)采用一对多的标签分配方式,其中后者整合了非极大值抑制来优化结果。DN-DETR(Li等,2022)引入去噪机制以稳定训练,这一概念在DINO(Zhang等,2022)中得到进一步优化,DINO采用了对比学习方法。此外,在实时检测中,DIoU和CIoU损失(Zheng等,2020)已经出现,它们通过提高收敛速度和回归精度,解决了传统IoU指标的局限性,从而提升了边界框的准确率。
此前的方法在实现有效的一对多匹配方面存在困难,而NAN-DETR(多锚点加噪检测Transformer)通过一系列新颖的改进解决了这些挑战。NAN-DETR的架构由骨干网络、多层Transformer编码器、多个多层Transformer解码器和多个预测头组成。其关键创新在于基于解码器的多锚点策略,即多个独立的解码器对编码器生成的初始锚点进行优化,从而提高检测准确率。此外,在解码器中引入的集中噪声机制最大限度地减少了锚点框之间的冲突,进一步增强了鲁棒性。与DETR类似,匹配过程采用“完全交并比”(CIoU)损失函数来增强锚点框的相似性并优化检测结果。这些创新技术的结合显著提高了目标检测的准确率,尤其是在不同尺寸物体的平均精度(AP)方面,这使得NAN-DETR有别于其他DETR变体。
我们的贡献可总结如下:
-
我们提出了一种新的端到端DETR型模型,采用中心化加噪多锚点策略,实现了高精度的目标检测。
-
我们提出了基于解码器的多锚点策略以提高目标检测准确率,以及中心化加噪机制以减少不同锚点之间的冲突。此外,我们采用完全交并比(CIoU)损失来提高锚点之间相似性的精确度量。
-
我们通过在COCO数据集上进行全面实验验证了NAN-DETR的有效性,在该实验中,我们的模型以ResNet-50作为骨干网络,实现了50.1%的平均精度(AP),优于现有的最先进方法。
PART/3
新算法框架解析
模型概述
NAN-DETR 在DETR(Carion等,2020)框架的基础上,通过多项关键创新来提升检测准确率。其架构包含骨干网络、Transformer编码器、多个Transformer解码器以及输出最终检测结果的预测头,如图1所示。

图1
该流程始于将图像输入骨干网络(如ResNet(He等,2016)或Swin-Transformer(Liu Z.等,2021,2022)),以提取全局特征。这些特征与位置嵌入相结合以捕获空间关系,随后由Transformer编码器处理,将图像划分为多个区域(查询)。图像特征提取过程的细节可参见3.2节。每个查询用于通过神经网络生成初始锚点框。这些锚点框随后由k个独立的解码器进行局部优化,以更好地检测目标。该策略被称为基于解码器的多锚点策略,其细节可参见3.3节。为减少多个锚点框之间的冲突,在计算后对其进行扰动,这就是3.4节中提出的中心化加噪机制。最后,匹配过程与DETR类似,但引入了CIoU(Zheng等,2020)以提高锚点间相似性的精确度量并优化检测结果,这部分内容在3.5节中说明。
图像特征提取
对于给定的图像,我们可通过视觉骨干网络获取视觉特征信息。为获取不同尺度的图像信息,我们采用多尺度检测来提取多尺度视觉特征。同时,由于图像中不同区域之间的位置关系至关重要,我们引入位置嵌入以确保模型能够捕获不同区域的位置信息。图像特征提取过程如下:
v = B(x) + vpos
其中v代表Transformer编码器的输入,B表示骨干网络,例如ResNet-50(He等,2016)或Swin Transformer(Liu Z.等,2021,2022)架构,vpos表示正弦位置嵌入。ResNet-50采用卷积和残差连接,在提取局部特征方面表现出色,且计算效率高,而Swin Transformer基于自注意力机制,既能捕获全局信息又能捕获局部信息,适用于复杂视觉任务,但计算成本更高。
接下来,我们将加入位置嵌入的图像特征输入到Transformer编码器中进行注意力交互,以获取图像特征。然后,在全连接层中得到图像中每个目标的多个查询锚框,作为Transformer解码器的输入。
基于解码器的多锚点策略
基于解码器的多锚点策略可缓解原始DETR框架的局限性。在DETR架构中,编码器的功能与标准Transformer编码器类似,生成抽象信息以有效将图像划分为多个区域,这些区域被称为查询。为增强这些查询内的目标检测能力,我们引入一个神经网络层,生成与锚点框对应的四维向量(Wang等,2022;Zhang等,2023)。这些向量被视为初始锚点框,提供初步的空间信息,指示潜在的目标位置。
然而,单个锚点框往往无法充分表示较大的目标,导致收敛困难和模型训练难题。尽管先前的研究中提出了一些思路,例如Group DETR(Chen等,2023)和Co-DETR(Zong等,2023),它们的研究都引入了一对多匹配方法。但我们的实现方法与之不同,并且具备一些优势。Group DETR采用任意分组方式,未充分利用编码器的信息,而Co-DETR严重依赖辅助头,导致冗余。
为解决这些问题,我们提出的策略使用多个解码器(记为k个解码器),如图2所示,独立处理每个查询。

图2
每个解码器对初始锚点框进行优化,从而得到锚点框的多个预测位置。这种一对多分配有效提高了准确捕获图像中不同尺度目标的可能性。与Group DETR和Co-DETR相比,我们的策略通过更具针对性且高效的过程优化锚点框,规避了这些局限性,确保更好地利用编码器的输出。
中心化加噪机制
为每个查询生成多个锚点框后,如Co-DETR研究(Zong等,2023)所述,辅助头的输出之间可能存在冲突,这成为一个显著挑战。例如,考虑这样一种场景:一个目标(如正方形)最初由四个以其为中心的锚点框表示。如果这些锚点被随机扰动,它们可能会向正方形的四个角偏移。这种扰动可能导致锚点整体上丢失对目标的感知,有些甚至可能完全偏离正方形的边界。这种现象表明,不同的锚点可能捕获关于同一目标的不同甚至有时是冲突的信息,尤其是在处理大目标时。如果这些锚点之间的冲突未得到有效处理,它们所提供的累积信息可能会变得不一致或具有误导性,从而损害整体检测准确率。这个问题类似于上述的正方形示例,锚点的偏离会导致目标表示不完整或错误。
为避免这一问题,我们对这k个锚点框进行扰动。在计算出这k个锚点框的中心后,我们对其施加随机噪声,使它们向中心移动一定距离。这一步骤最大限度地减少了冲突,并融合了多个框的检测信息。最终,我们得到k个相互影响的锚点框,并整合了各种变换的可能性。这些k×查询数的锚点框随后将用于匹配,如图3所示,匹配过程与DETR中的相同。

图3
完全交并比(CIoU)损失
交并比(IoU)是目标检测中广泛使用的度量指标,主要用于衡量预测边界框与真实边界框之间的重叠程度。然而,IoU存在明显局限性,例如当框之间无重叠时无法提供有用的梯度信息,且无法充分考虑平移或旋转导致的重叠变化。为解决这些缺陷,我们采用完全交并比(CIoU)损失(Zheng等,2020),该损失在YOLO(Zhao等,2024;Redmon等,2016)等模型中已被证明是成功的。CIoU在基本IoU的基础上进行了扩展,融入了边界框中心之间的距离,从而对相似性提供更全面的评估。在NAN-DETR中,我们用CIoU替代传统IoU,利用其在训练过程中提升边界框预测精度的能力,这对高精度目标检测任务尤为有利。
PART/4
实验及可视化
实验设置
数据集与评估指标
为评估NAN-DETR的性能,我们使用COCO数据集(Lin等,2015)进行评估。该数据集是目标检测研究中广泛采用的综合性基准,涵盖80个目标类别和超过20万个带标签样本。val子集是我们报告检测结果的主要部分。主要评估指标是平均精度(AP),它衡量所有类别在精确率-召回率曲线下的面积平均值。具体指标如AP50和AP75分别对应IoU阈值为0.5和0.75时的平均精度。此外,APS、APM和APL指标评估不同尺寸目标(小、中、大)的性能,深入洞察NAN-DETR应对不同检测挑战的能力。
实现细节
NAN-DETR采用PyTorch实现,并在配备8块NVIDIA A100 GPU的环境中训练。我们使用AdamW优化器,基础学习率为10^-4,骨干网络的学习率为10^-5。模型训练包括将最大梯度范数裁剪为0.1,位置编码温度设为20。编码器和解码器均由6层组成,每层前馈维度为2048,隐藏维度为256,不使用 dropout。模型使用8个注意力头,处理900个查询,每个查询在编码器和解码器中均包含4个点。ReLU用作激活函数,FrozenBatchNorm2d用于批归一化。模型的损失设置包括:类别预测损失系数为2.0,边界框损失系数为5.0,CIoU损失系数为2.0。我们将分类损失系数设为1.0,边界框和CIoU损失系数分别为5.0和2.0。此外,focal损失的alpha参数为0.25,噪声参数σ固定为0.05。这些超参数是在大量实验的基础上进行微调,以优化模型性能。
我们的方法在COCO数据集上表现良好,具体可视化结果如图4所示。

图4
ResNet-50骨干网络
表1

表1和图5展示了使用ResNet-50骨干网络的各类DETR变体的性能,体现出目标检测能力的显著差异。

图5
像Conditional-DETR(Meng等,2021;Chen X.等,2022)和Anchor-DETR(Wang等,2022)这类重新引入锚点框和条件查询的方法,分别取得了43.0%和42.1%的AP分数,表现中等。这些方法提高了查询的可解释性,但仍落后于更先进的模型。DAB-DETR(Liu S.等,2022)和AdaMixer(Gao等,2022)结合了动态锚点框和自适应混合策略,分别取得了45.7%和47.0%的更优AP分数,显示出查询构建的增强和收敛速度的提升。
更先进的方法如DN-Deformable-DETR(Li等,2022)和H-Deformable-DETR(Jia等,2023)利用可变形注意力模块和去噪技术,分别取得了48.6%和48.7%的更高AP分数。DINO-Deformable-DETR(Zhang等,2023)进一步改进了这些技术,实现了49.4%的AP。Co-Deformable-DETR(Zong等,2023)也展现出强劲性能,AP为49.5%,彰显了协作式混合分配的有效性以及检测头的重要性。
然而,该类别中的最佳表现者是采用多锚点加噪的NAN-DETR,取得了令人瞩目的50.1%的AP。该方法优于所有其他DETR变体,在检测精度上实现了显著提升。CIoU损失也增强了边界框预测,助力获得更高的AP75分数。如图7所示,尽管在小目标检测性能上略有下降,但NAN-DETR在中、大目标检测方面始终表现出色,使其成为应对各类目标检测任务、解决多锚点冲突的灵活且鲁棒的解决方案。从APS和APL的结果来看,中心化加噪机制表现良好,确实在大目标检测中取得了优异成果。

图7
图7展示了NAN-DETR模型在COCO数据集上的各类精度指标,特别聚焦CIoU损失和多锚点加噪的效果。该图说明了NAN-DETR模型在使用ResNet-50骨干网络训练12个轮次后,在不同IoU阈值和目标尺寸下的平均精度(AP)表现。
性能分析:
-
AP(平均精度)提升:结合CIoU损失和多锚点加噪的NAN-DETR模型实现了50.1%的AP,相较于其他配置(包括采用单锚点且无CIoU的基准NAN-DETR)有显著提升。这表明CIoU与多锚点加噪的结合有助于实现更准确的检测,尤其是在边界框预测方面。
-
小目标检测:尽管整体性能有所提升,但在采用多锚点加噪的模型中,小目标的精度(APS)略有下降。APS从单锚点配置下的32.5%降至多锚点加噪配置下的31.8%。这可能表明,中心化加噪机制虽然整体有益,但在检测对精确边界框预测要求较高的小目标时,可能带来挑战。
-
中、大目标检测:该模型在检测中、大目标时表现出鲁棒性APM(中目标的AP)和APL(大目标的AP)分别提升至53.7%和65.3%。这些指标的持续提升凸显了多锚点加噪方法在处理不同尺寸和宽高比目标时的有效性。
-
CIoU损失的影响:CIoU损失的使用似乎显著增强了边界框的准确率,尤其是对于较大的目标。CIoU不仅考虑了框之间的重叠,还考虑了宽高比和中心距离,从而带来更精确的预测。这反映在更高的AP75分数上,表明该模型在更严格的IoU阈值下表现更优。

图8
图8的消融研究凸显了NAN-DETR中各组件的贡献。引入无加噪的多个锚点使AP提升至49.7%,证明了我们基于解码器的多锚点策略在提升检测性能方面的有效性。多个锚点使模型能够更好地捕获不同尺寸和形状的目标,从而提高检测任务的精度。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。


被折叠的 条评论
为什么被折叠?



