End-to-End Object Detection with Transformers(Detection Transformer)翻译

最新推荐文章于 2025-06-19 01:00:00 发布

原创

最新推荐文章于 2025-06-19 01:00:00 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #transformer #目标跟踪

摘要

我们提出了一种新方法，将目标检测视为直接的集合预测问题。我们的方法简化了检测流程，有效消除了对许多手工设计组件的需求，如非极大值抑制过程或锚框生成，这些组件显式编码了我们对任务的先验知识。新框架称为检测变换器（DEtection TRansformer，简称DETR），其主要成分是通过二分匹配强制唯一预测的基于集合的全局损失，以及一个变换器编码器-解码器架构。给定一组固定的小规模学习到的目标查询，DETR推理目标之间的关系和全局图像上下文，以并行方式直接输出最终的预测集合。新模型概念上简单，并且不需要像许多其他现代检测器那样的专用库。在具有挑战性的COCO目标检测数据集上，DETR的表现与经过充分研究和高度优化的Faster RCNN基线相当。此外，DETR可以轻松推广，以统一的方式产生全景分割。我们证明了它显著优于竞争性的基线。训练代码和预训练模型可在https://github.com/facebookresearch/detr获取。

1 引言

目标检测的目标是预测每个感兴趣目标的边界框和类别标签。现代检测器通过在一组大量的提议[37,5]、锚框[23]或窗口中心[53,46]上定义替代回归和分类问题，来间接解决这个集合预测任务。它们的性能受到后处理步骤的显著影响，这些步骤用于合并近似重复的预测，受到锚框集设计的影响，以及将目标框分配给锚框的启发式方法的影响[52]。为了简化这些流程，我们提出了一种直接的集合预测方法，以绕过替代任务。这种端到端的理念在复杂的结构化预测任务（如机器翻译或语音识别）中取得了显著进展，但在目标检测中尚未实现：之前的尝试[43,16,4,39]要么添加了其他形式的先验知识，要么在具有挑战性的基准测试中尚未证明能与强大的基线相竞争。本文旨在弥合这一差距。

我们通过将目标检测视为直接的集合预测问题，来简化训练流程。我们采用基于变换器[47]的编码器-解码器架构，这是一种流行的序列预测架构。变换器的自注意力机制显式建模序列中元素之间的所有成对交互，这使得这些架构特别适合于集合预测的特定约束，如去除重复预测。

我们的检测变换器（DETR，见图1）一次性预测所有目标，并使用集合损失函数进行端到端训练，该函数在预测目标和真实目标之间进行二分匹配。DETR通过去除多个编码先验知识的手工设计组件（如空间锚框或非极大值抑制）来简化检测流程。与大多数现有的检测方法不同，DETR不需要任何定制层，因此可以在包含标准CNN和变换器类的任何框架中轻松复现。

图 1: DETR directly predicts (in parallel) the final set of detections by combining a common CNN with a transformer architecture.

与以往关于直接集合预测的大多数工作相比，DETR的主要特点是二分匹配损失和变换器与（非自回归）并行解码[29,12,10,8]的结合。相比之下，以往的工作侧重于使用RNN的自回归解码[43,41,30,36,42]。我们的匹配损失函数唯一地将预测分配给真实目标，并且对预测目标的排列是不变的，因此我们可以并行地发出它们。

我们在最受欢迎的目标检测数据集之一COCO[24]上评估了DETR，与非常有竞争力的Faster R-CNN基线[37]进行了比较。Faster R-CNN经历了许多设计迭代，其性能自最初发表以来得到了极大的提高。我们的实验表明，我们的新模型实现了相当的性能。更具体地说，DETR在大目标上表现出显著更好的性能，这一结果很可能是由变换器的非局部计算所实现的。然而，它在小目标上的性能较低。我们预计未来的工作将像FPN[22]对Faster R-CNN的发展那样，改善这一方面。

DETR的训练设置与标准的目标检测器在多个方面有所不同。新模型需要更长的训练计划，并从Transformer中的辅助解码损失中获益。我们彻底探索了哪些组件对于所展示的性能至关重要。

DETR的设计理念很容易扩展到更复杂的任务。在我们的实验中，我们展示了一个在预训练的DETR之上训练的简单分割头在全景分割[19]这一具有挑战性的像素级识别任务上优于有竞争力的基线。

2 相关工作

我们的工作建立在多个领域的先前工作之上：用于集合预测的二元匹配损失、基于Transformer的编码器-解码器架构、并行解码以及目标检测方法。

2.1 集合预测

没有用于直接预测集合的规范深度学习模型。基本的集合预测任务是多标签分类（例如，参见[40,33]在计算机视觉背景下的参考文献），对于该问题，基线方法（一对一剩余）不适用于如检测这样存在元素间底层结构（即近乎相同的框）的问题。这些任务中的第一个困难是避免近乎重复的项。大多数当前的检测器使用如非极大值抑制的后处理来解决这个问题，但直接集合预测是无需后处理的。它们需要全局推理方案来建模所有预测元素之间的相互作用，以避免冗余。对于恒定大小的集合预测，密集的全连接网络[9]是足够的，但成本高昂。一种通用方法是使用如循环神经网络[48]的自回归序列模型。在所有情况下，损失函数应该对预测的排列保持不变。通常的解决方案是基于匈牙利算法[20]设计损失，以找到真实值和预测之间的二分匹配。这强制实现排列不变性，并保证每个目标元素都有一个唯一匹配。我们遵循二分匹配损失的方法。然而，与大多数先前的工作不同，我们放弃了自回归模型，而使用具有并行解码的Transformer，我们将在下面进行描述。

2.2 Transformer和并行解码

Transformer是由Vaswani等人[47]作为机器翻译的一种新的基于注意力的构建块而引入的。注意力机制[2]是神经网络层，它从整个输入序列中聚合信息。Transformer引入了自注意力层，它类似于非局部神经网络[49]，扫描序列的每个元素并通过从整个序列聚合信息来更新它。基于注意力的模型的主要优点之一是它们的全局计算和完美记忆，这使得它们比循环神经网络更适合处理长序列。Transformer现在正在自然语言处理、语音处理和计算机视觉的许多问题中取代循环神经网络。

Transformer最初用于自回归模型，遵循早期的序列到序列模型[44]，逐个生成输出标记。然而，高昂的推理成本（与输出长度成正比，且难以批量处理）导致了并行序列生成的发展，应用于音频[29]、机器翻译[12,10]、词表示学习[8]等领域，以及最近应用于语音识别[6]。我们还结合了Transformer和并行解码，因为它们在计算成本和执行集合预测所需的全局计算之间提供了合适的权衡。