Detection Transformer with Stable Matching——基于稳定匹配的DETR

想成为鲲鹏的菜鸟

已于 2023-12-13 10:24:37 修改

阅读量1.9k

点赞数 42

分类专栏：目标检测文章标签：目标检测人工智能计算机视觉

于 2023-12-13 10:23:47 首次发布

本文链接：https://blog.youkuaiyun.com/lhaoligei/article/details/134964932

版权

目标检测专栏收录该内容

1 篇文章

订阅专栏

Detection Transformer with Stable Matching——基于稳定匹配的DETR

在这里插入图片描述

文章目录

Detection Transformer with Stable Matching——基于稳定匹配的DETR
摘要
一、介绍
二、稳定匹配
三、记忆融合
四、实验
五、相关工作
六、总结

摘要

`
本文主要研究了DETR中不同解码层之前的匹配稳定性问题。我们发现DETR的不稳定匹配是由多优化路径问题引起的，具体是因为DETR模型是一个基于匈牙利匹配的one to one匹配。为了解决这个问题，我们主要设计使用且仅使用位置度量（如IoU）来监督正例的分类分数。基于这个原理，我们提出了两个简单而有效的模块，将位置度量与DETR的分类损失和匹配成本相结合，称为位置监督损失和位置调制成本。我们在几个DETR变体上验证了我们的方法。我们的方法在基线上都有所提升。通过将我们的方法与DINO相结合，我们在1*（12epochs）和2*（epochs）训练设置下使用ResNet-50骨干网络，在COCO检测基准上实现了50.4和51.5的AP（准确率），在相同设置下实现了新的记录。我们使用Swin-Large骨干网络在COCO检测测试集上实现了63.8AP（准确率）。我们的代码将会开源在https:// github.com/IDEA-Research/Stable-DINO。

一、介绍

目标检测是视觉领域的一项基础任务，具有广泛的应用前景。在过去十年，随着深度学习的发展，尤其是卷积神经网络（CNN），目标检测已经取得了很大的进步。
图1:我们的方法(图中名为Stable-DINO)和基线的比较。左图为ResNet50骨干网模型，右图为SwinTransformer Large骨干网模型。所有模型都使用来自主干的最大1/8分辨率特征图，除了AdaMixer使用最大1/4分辨率特征图。
检测Transformer（DETR）提出了一种新颖的基于Transformer的目标检测器，引起了研究界的极大兴趣。它摒弃了需要所有手工加入模块，并支持端到端的训练。DETR的一个关键设计是匹配策略，它使用匈牙利匹配将预测值与真值标签一对一匹配。尽管其设计新颖，但这种创新的方法也给DETR带来了一些限制，包括收敛慢和性能差。许多后续研究视图从多个角度改进DETR，如引入位置先验[32,41,28,14]、额外正例[22,4,5]和高效算子[47,34]。通过许多优化，DINO在COCO检测排行榜上创造了新的记录，使得基于Transformer的方法成为了大规模训练的主流检测器。
尽管类DETR的检测器取得了令人印象深刻的性能，但迄今为止，有一个关键问题没有得到足够的重视，这可能会降低模型训练的稳定性。这个问题就是不同解码器层之间的不稳定匹配问题。类DETR模型在Transformer解码器中堆叠了多个解码器层。该模型分配预测并计算每个解码器层后的损失。然而，分配给这些预测的标签可能在不同的层次上有所不同。这种差异可能导致DETR变量一对一匹配策略下的优化目标冲突，其中每个真值标签只匹配一个预测结果。
据我们所知，迄今为止只有一项工作视图解决不稳定匹配问题。DN-DETR提出了一种新的去噪训练方法，通过引入额外的硬分配查询来避免不匹配。其他一些工作[19,5]增加了额外的查询来加快收敛速度，但没有关注不稳定匹配问题。相比之下，我们通过关注匹配和损失计算过程来解决这个问题。
我们提出解决不稳定匹配问题的关键是多优化路径问题。如图2所示，在训练过程中有两个不完美的预测。预测A的IoU值较高，但分类评分较低，而预测B则相反。这是训练中最简单但对常见的情况。该模型将其中一个分配给基础事实，从而产生两个优化偏好：一个选择A，这意味着选择具有高位置度量的预测来获得更好的分类结果；另一个是选择B，这意味着支持具有高语义度量（这里是分类分数）的预测来获得更好地IoU值。我们将这些首选项称为不同的优化路径。由于训练过程的随机性，每个预测都有一定的概率被分配为正例，而另一个被视为负例。在默认损失设计下，无论选择A还是B作为正例，模型都会朝着与真值边界框对齐的方向进行优化，即模型具有多条优化路径，如图2所示。这个问题在传统检测器中并不显著，因为，模型会选择多个query（查询）作为正例。然而，类DETR模型的一对一匹配策略放大了预测A和预测B之间的优化差距，使得模型训练效率降低。

图2:多优化路径问题的解释。我们使用术语“CLS”作为分类分数。每个预测都有一个概率，在二部匹配中被分配为正例，并在训练过程中被鼓励向ground truth方向发展，这可以是不同的优化路径。在有位置监督损失的情况下，训练过程中只有一条优化路径，可以稳定匹配。
为了解决这个问题，我们发现最关键的设计是使用且仅使用位置度量（例如，IoU）来监督正例的分类分数。在2.2节中有更详细的介绍。如果我们使用位置信息来约束分类分数，那么如果预测B匹配，则不认同预测B，因为它具有较低的IoU分数。因此，只有一条优化路径可用，从而减轻了多优化路径的问题。如果引入额外的与分类分数相关的监督，由于预测B具有更好的分类分数，多优化路径仍然会影响模型的性能。根据这一原理，我们提出了两种简单而有效的损耗和匹配代价的修正:位置监督损耗和位置调制代价。
这两种方法都能使模型更快的收敛和更好的性能。我们提出的方法还在类der模型和传统检测器之间建立了联系，因为两者都鼓励具有高位置分数的预测具有更好的分类分数。更详细的分析请参见第2.4节。
此外，我们已经观察到，融合模型的骨干和编码器特征可以促进预训练骨干特征的利用，从而更快地收敛，特别是在早期的训练迭代中，并且在几乎没有额外成本的情况下获得更好的模型性能。我们提出了三种融合方式，并经验地选择了密集记忆融合进行实验。有关更多细节，请参见第3节。
我们在几个不同的DETR变体上验证我们的方法。我们的方法在所有实验中都显示出一致的改进。然后，我们将我们的方法与DINO相结合，构建了一个强大的检测器StableDINO。StableDINO在COCO检测基准上给出了令人印象深刻的结果。我们的模型与其他DETR变量的比较如图1所示。Stable-DINO实现了50.4和51.5 AP，从ResNet-50骨干网在1x和2x训练调度程序下的四个特征尺度，与DINO基线相比，AP增加了+1:4和+1:1。使用更强大的骨干Swin Transformer Large, Stable-DINO可以使用1x和2x训练调度程序实现57:7和58:6 AP。据我们所知，这些是相同设置下DETR变体中的最佳结果。

二、稳定匹配

本节介绍了我们对类der模型中不稳定匹配问题的解决方案。我们首先回顾了之前工作中的损失函数和匹配策略(第2.1)。为了解决不稳定匹配问题，我们分别在2.2节和2.3节中演示了对损失和匹配代价的修改。

2.1 回顾DETR损失和匹配成本

大多数DETR变体[3、32、41、28、22、46、47]具有类似的损失和匹配设计。我们以最先进的模型DINO为例。它继承了可形变DETR[47]的损失和匹配，该设计通常用于类DETR检测器[47,32,28,22,15]。其他一些类似der的模型[3]可能使用不同的设计，但只进行了微小的修改。
DINO的最终损耗由分类损耗、盒L1损耗和GIOU损耗三部分组成[37]。盒L1损耗和GIOU损耗用于对象定位，在我们的模型中不做修改。本文主要研究分类损失问题。
DINO将focal loss[26]作为分类损耗:
在这里插入图片描述
其中Npos和Nneg为正、负样例的个数，BCE为二元交叉熵损失，pi为第i个样例的预测概率，γ为焦点损失的超参数，绝对值用|·|表示。
一个匹配过程决定了正、负样例。通常情况下，一个真值只会被分配一个预测作为正例。没有的预测将被视真值为负例。
为了分配具有真值的预测，我们首先计算它们之间的成本矩阵。Npred和Ngt是预测和真值的符号。然后在代价矩阵上执行匈牙利匹配算法，通过最小化和代价为每个真值分配一个预测。
与损失函数类似，最终成本包括三个部分，分类成本Ccls，盒子=L1成本Cbbox, GIOU成本CGIOU[37]。我们只关注分类成本。对于第i个预测和第j个真实情况，分类成本为:
在这里插入图片描述
公式与focal loss相似，但有少许修改。focal loss只鼓励正例预测1，而分类成本增加了一个额外的惩罚项，以避免它为0。

2.2 位置监督损失

为了解决多重优化问题，我们只使用位置分数来监督正例的训练概率。受前人工作[13,25]的启发，我们可以简单地将分类损失公式1修改为:
在这里插入图片描述
我们用红色标记公式1的差异。我们使用si作为一个位置度量，就像在第i个真值和它相应的预测之间的IOU一样。像一些示例，我们可以在实现中使用f1(si)作为si, s2i和esi。

在我们的实验中，我们发现f1(si) =“e(s 2 i)”在我们的实现中最有效，其中e是重新缩放数字以避免一些退化解决方案的转换，因为IOU值有时可能非常小。我们尝试了两种rescale策略，一种是确保最高的s 2 i等于训练样例中所有可能对中的最大IOU值，这是受到[13]的启发，另一种是确保最高的s 2 i等于1.0，这是一种更简单的方法。
我们发现前者更适合查询较多的检测器，比如DINO(900个查询)，而后者更适合查询300个的检测器。
该设计尝试使用位置指标(如IOU)来监督分类分数。它鼓励分类分数低而IOU分数高的预测，而惩罚分类分数高但IOU分数低的预测。

2.3 位置调制匹配

位置监督分类损失旨在鼓励具有高IOU分数但低分类分数的预测。本着新亏损的精神，我们想对配套费用做一些修改。我们将公式2改写为:
在这里插入图片描述
我们用红色标记公式2的差异。这是另一个位置度量，我们在实现中使用了一个重新缩放的GIOU。由于GIOU的范围从[-1,1]，我们将其移动并重新缩放到[0,1]范围作为一个新的度量。F2是另一个需要调整的函数。在我们的实现中，我们经验地使用f2(s’i) = (s’i) 0.5。
直观地，f2(s’i)被用作一个调制函数，以降低具有不准确预测框的预测的权重。它也有助于更好地调整分类分数和边界框预测。
一个有趣的问题是，为什么我们不直接使用新的分类损失（公式3）作为新的分类成本。所有的预测和基础事实之间的匹配是计算的，在这之下会有许多低质量的预测。理想情况下，我们希望选择IOU得分高、分类得分高的预测作为正例，因为其匹配成本低。但是，IOU分数和分类分数较低的预测，匹配成本也较低，使模型退化。

2.4 分析

2.4.1 为什么只使用位置分数来监督分类?

我们认为不稳定匹配的根源是多优化路径问题。讨论最简单的场景:我们有两个不完美的预测，A和b。如图2所示，预测A的IOU评分较高，但分类评分较低，因为它的中心位于后台。相比之下，预测B的分类评分较高，但IOU评分较低。这两种预测将争夺地面真值对象。如果一个人被指定为正面榜样，另一个人将被设定为反面榜样。

两个不完美的候选人在训练中很常见，尤其是在早期阶段。

由于训练过程中的随机性，两个预测中的每一个都有一个被分配为正例的概率。在默认的DETR变量损失设计下，每种可能性都会被放大，因为默认的损失设计会鼓励积极的例子，抑制消极的例子，如表1所示。检测模型有两种不同的优化路径:模型倾向于高IOU样本或高分类分数样本。不同的优化路径会在训练过程中混淆模型。一个很好的问题是，这个模型是否可以鼓励两种预测。不幸的是，它将违反一对一匹配的要求。这个问题在传统的检测器中并不重要，因为传统检测器为每个基础真值分配多个预测。类der模型中的一对一匹配策略会放大冲突。
图3:DINO与稳定匹配的DINO的不稳定分数对比。
相反，如果我们用位置度量(如IOU)来监督分类分数，问题将被消除，如表1的最后一行所示。只有预测A会被鼓励朝向目标。如果预测B匹配，由于其IOU评分较低，因此不会持续优化。模型只有一条优化路径，这将稳定训练。

如何使用分类信息来监督分类分数?传统检测器的一些先前的工作试图通过使用质量分数来调整分类和IOU分数[13,25]，这是分类和IOU分数的组合。不幸的是，该设计不适合类似der的模型，这将在第4.4节展示，由于无法解决不稳定匹配、多路径优化的根源问题。假设分类和IOU分数都包含在目标中。在这种情况下，由于预测B具有较高的分类分数，因此如果匹配，也将鼓励预测B。同时存在多路径优化问题，不利于模型的训练。
表1:多优化路径问题的详细说明。假设我们有两个不完美的预测:A的IOU评分较高，分类评分较低，而B则相反。示例如图2所示。
另一个直接的问题是，我们是否可以将模型优化到另一条路径上。如果我们希望引导模型倾向于高分类分数，即鼓励在示例中匹配预测B。如果有两个对象属于同一范畴，就会产生歧义。例如，在一张图片中有两只猫。分类分数是由语义信息决定的，这意味着靠近任何一只猫的盒子分类分数都会很高，这可能会破坏模型训练。

2.4.2重新思考分类分数在检测变压器中的作用

新的匹配损失也将类detr模型与传统检测器连接起来。我们的新损耗设计与传统检测器具有相似的优化路径。

目标检测器有两条优化路径:一是找到一个好的预测框并优化其分类分数;二是将分类分数高的预测优化到真值框。大多数传统探测器仅通过检查其位置精度来分配预测。模型鼓励锚盒接近地面真相。这意味着大多数传统的检测器选择第一种优化方式。与之不同的是，类DETR匹配会额外考虑分类分数，并使用分类分数和定位分数的加权和作为最终的代价矩阵。新的匹配方式导致了两种匹配方式之间的冲突。

从那时起，为什么类detr模型在训练期间仍然使用分类分数?我们认为这更像是一种不情愿的一对一匹配设计。前人的研究[40]表明，引入分类代价是实现一对一匹配的关键。它只能保证一个关于基本真理的正面例子。由于局部化损失(框L1损失和GIOU损失)不能约束负例，所有接近一个基本真值的预测都将向基本真值方向优化。如果在匹配过程中只考虑位置信息，结果将不稳定。在匹配分类分数的情况下，分类分数作为标记来表示哪些预测应该作为正例，与位置匹配相比，在训练过程中可以保证稳定的匹配。

然而，由于分类分数是独立优化的，不与位置信息交互，有时会导致模型走向另一条优化路径，即鼓励分类分数较大但IOU分数较差的盒子。我们的位置监督损失可以帮助分类和定位保持一致，既保证了一对一的匹配，又解决了多重优化问题。

对于我们的新损失，类detr模型的工作方式更像传统的检测器，因为它们都鼓励具有较大IOU分数但较差分类分数的预测。

2.4.3不稳定评分比较

展示我们方法的有效性。我们在图3中比较了vanilla DINO和具有稳定匹配的DINO的不稳定分数。不稳定分数是相邻解码器层之间不一致的匹配结果。例如，如果我们在一幅图像中有10个真值框，并且只有一个box具有在第(i−1)层和第i层匹配的不同预测索引，则第i层不稳定评分为1/10 × 100:00 = 10.00%。通常，一个模型有六个解码器层。通过比较编码器和第一解码器层的匹配结果，计算第一层的不稳定分数。
我们在第5000步使用模型检查点，并在COCO val2017数据集中的前20张图像上评估模型。结果表明，该模型比DINO模型更稳定。图中有两个有趣的观察结果。
首先，不稳定分数一般从第一解码器层到最后一解码器层递减，这意味着更高的解码器层(具有更大的索引)可能具有更稳定的预测。而且，不稳定匹配的DINO在第5层有一个奇怪的峰，而匹配稳定的DINO则没有。我们怀疑是一些随机性导致了峰值。

三、记忆融合

进一步提高模型在训练前期的收敛速度。我们提出了一种简单的特征融合技术，称为记忆融合，该技术涉及将不同层次的编码器输出特征与多尺度骨干特征合并。我们提出了三种不同的记忆融合方式，分别是简单融合、类u融合和密集融合，如图4 (b)、©和(d)所示。对于要融合的多个特征，我们首先沿着特征维度将它们连接起来，然后将连接好的特征投影到原始维度。更多内存融合的实现细节见附录B。
图4:我们的方法和基线的比较。我们将(a)原始记忆特征与我们提出的三种记忆融合方式进行了比较:(b)简单记忆融合，(c)类u记忆融合，(d)密集记忆融合。
密集融合在我们的实验中获得了更好的性能，并将其作为我们的默认特征融合。我们对比了DINO和DINO密集融合的训练曲线如图5所示。结果表明，这种融合使得收敛速度更快，特别是在早期阶段。
在这里插入图片描述

四、实验

4.1 实验环境

数据集。我们在COCO 2017目标检测数据集上进行实验[27]。所有模型都在没有额外数据的train2017集上训练和在val2017集上评估模型的表现。我们指出我们的结果使用两个不同的骨干网络，包括在ImageNet-1k[10]上预训练的ResNet-50[17]和在ImageNet-22k[10]上预训练的swwin - L[30]。
实现细节。我们测试了基于DINO的稳定匹配策略的有效性[46]。我们使用AdamW优化器[31,21]在COCO训练上训练模型，12个epoch的学习率为1 × 10−4，在第11个epoch的学习率降低了0.1。在24 epoch的情况下，学习率在第20 epoch时下降。我们将权重衰减设为10−4。我们所有的实验都是基于detrex[12]。我们将它们的超参数作为其他DETR变体的默认值。由于新的损失设计导致分类损失规模较小，我们经验地选择6.0作为分类损失权重。此外，我们发现适当的非最大抑制(NMS)仍然可以帮助大约0:1−0:2 AP的最终性能。我们默认使用阈值为0.8的NMS。我们在所有实验中都使用随机种子60，以确保结果的可重复性。种子60 in detrex的DINO[12]结果与原文相同(49.0 AP)

4.2 主要结果

如表2所示，我们首先使用ResNet-50[18]骨干网将我们的StableDINO在COCO目标检测值2017集上与其他DETR变体进行比较。StableDINO-4scale和Stable-DINO-5scale可以在1x调度器上实现50.2 AP和50.5 AP，这比dino -4和5scale 1x基线获得1.2和1.1的AP。与DINO-4scale的2倍和3倍基线相比，Stable-DINO-4scale在2倍训练调度器的情况下，AP甚至提高了1.1和0.6。表3将我们的模型与其他具有大型骨干的最先进的基于transformer的检测器进行了比较，例如ImageNet-22k[10]预训练的swan - large骨干。Stable-DINO-4scale在1x上可以达到57.7 AP，在2x调度器上可以达到58.6 AP，比DINO 1x和3x基准分别高出0.9和0.6 AP。
在这里插入图片描述

与SOTA方法的比较见表10。

4.3 我们方法的推广

为了验证我们模型的泛化，我们在其他DETR变体上进行了实验。结果如表5所示。我们的方法对现有模型有一致的改进，包括Deformable-DETR[47]、DABDefomable-DETR[28]和H-DETR[4]。
在这里插入图片描述
为了进一步展示我们的方法在不同任务上的有效性，我们在MaskDINO[23]上实现了我们的方法，用于对象检测和分割。我们将新模型命名为Stable-MaskDINO。Stable-MaskDINO在检测和分割任务上都优于MaskDINO，如图4所示。

4.4 消融实验

我们在本节中介绍消融实验。我们使用ResNet-50骨干网和12 epoch训练作为默认设置。
模型设计的有效性。我们首先验证模型中每个设计的有效性。结果如表6所示。为了进行公平的比较，我们在表的第1行中使用NMS 0.8测试DINO。与默认测试方式相比，该模型的增益为0.2。
结果表明，位置监督损失和位置调制成本分别为+0.6 AP和+0.4 AP增益，有助于最终结果。值得注意的是，DINO已经实现了高性能;因此，每一种性能都很难提高。
在这里插入图片描述
通过对三种记忆融合方式的比较，我们发现密集融合的效果最好。与基线相比，它带来+0.2的AP和+0.5的AP50。此外，如第3节所示，融合在早期训练步骤中有很大帮助。
不同损耗设计的比较。我们在表7中比较了不同损耗设计的有效性。为了表中的简化，我们忽略了“转换函数”(参见2.2节)。为了保持公平的比较，我们在表中所有实验中都使用损失权重为10.0。所有模型的训练都没有记忆融合和位置调制成本。
在这里插入图片描述
实验中有一些有趣的观察结果。首先，使用位置指标作为监督，该模型在大多数情况下都具有性能增益。该方法对功能设计具有较强的鲁棒性。例如，它甚至可以很好地处理f1(s) =(es−1)/(e−1)函数。

其次，引入分类分数(如概率)将导致模型的性能下降，如表7中的第5、6和7行所示。它验证了我们在第1节和第2.4节中的分析。验证了方法设计的有效性。最后，f1(s) = s2这样的凸函数比f1(s) = s 0.5这样的凹函数效果更好。作为一种特殊情况，凹函数sin(s × π/2)甚至会导致性能下降，因为它随着s的增加而快速达到1。
不同损失权重的比较。在本节中，我们将测试位置监督损失的不同损失权值。结果如表8所示。结果表明，我们的模型对大多数分类权值都能很好地工作比如例4-10。我们使用位置调制成本，并且在消融中不使用存储器。
在这里插入图片描述
位置调制成本的消融。在本节中，我们比较了不同功能和成本重量设计的结果。结果如表9所示。我们默认选择f2(s) = s 0.5，成本权重为2.0。

五、相关工作

检测Transformer。检测Transformer(Detection Transformer, DETR)[3]提出了一种基于Transformer的新型检测器，消除了检测器头部工艺模块的依赖性。虽然设计新颖，但收敛速度慢，性能差。许多后续行动试图从不同的角度解决问题。例如，一些研究[14,32,41,28]发现了位置先验的重要性，并提出在模型之前添加更多的位置先验。
例如，DAB-DETR[28]将解码器查询制定为动态锚框，以获得更好的结果。一些工作[47,33]设计了新的操作符来紧固模型训练，如deformable DETR中的可形变注意力机制。另一项工作[22,19,5,48]试图为解码器添加额外的分支。他们发现辅助任务可以帮助模型的收敛。还有传统匹配[35]、模型预训练[9]等方面的探索。
尽管它们取得了很大的进展，但解码器层间不稳定匹配问题却很少受到关注。本文分析了不稳定匹配问题产生的原因，并提出了一种简单而实用的解决方法。新的损失和匹配设计为之前的工作引入了边际成本，从而提高了模型的性能。
Focal Loss的变体。我们的损耗设计是Focal loss的一种变体[26]。虽然较少关注DETR变体，但有许多工作[13,25,1]关注经典检测器的损耗改进。与我们的解决方案最相关的工作是任务对齐损失[13]。我们有一个不同的动机与任务相关的损失。重点研究了传统检测器中不存在的DETR变量的稳定匹配问题。此外，尽管在单级检测器中任务对准损失有很大的效果，但这种损失不能直接用于DETR变体。它引入了分类分数作为额外的监督，这导致一对一匹配的类detr模型的性能下降，如第7节所示。造成这种不同的最主要原因是传统探测器和我们的解决方案的两种匹配方式。
本文首先分析了不稳定匹配现象，指出其关键是多优化路径问题。然后，我们证明了解决问题的最关键设计是使用且仅使用位置度量来监督分类分数。我们为类detr模型中的不稳定匹配问题提供了一个更简洁、更主要的解决方案。

六、总结

我们分析了类der模型的稳定匹配问题，指出了问题的根源是多优化路径问题。为了解决多优化路径问题，我们提出了利用位置度量来监督正例的分类得分是解决多优化路径问题的关键。然后，我们提出了一种新的位置监督损失和一种新的位置调制代价用于类der模型。此外，我们还提出了一种密集记忆融合来增强编码器和主干的特征。我们在许多类似detr的变体上验证了我们设计的有效性。
局限性。虽然我们的方法表现出了很好的性能，但我们只在类detr图像目标检测和分割上进行了验证。更多的探索，如3D物体检测，将留给我们未来的工作。此外，我们只关注丢失和匹配中的分类部分，而保留了定位部分。对本地化部分的分析也将作为我们今后的工作。