End-to-End Object Detection with Transformers(Detection Transformer)翻译

摘要

我们提出了一种新方法,将目标检测视为直接的集合预测问题。我们的方法简化了检测流程,有效消除了对许多手工设计组件的需求,如非极大值抑制过程或锚框生成,这些组件显式编码了我们对任务的先验知识。新框架称为检测变换器(DEtection TRansformer,简称DETR),其主要成分是通过二分匹配强制唯一预测的基于集合的全局损失,以及一个变换器编码器-解码器架构。给定一组固定的小规模学习到的目标查询,DETR推理目标之间的关系和全局图像上下文,以并行方式直接输出最终的预测集合。新模型概念上简单,并且不需要像许多其他现代检测器那样的专用库。在具有挑战性的COCO目标检测数据集上,DETR的表现与经过充分研究和高度优化的Faster RCNN基线相当。此外,DETR可以轻松推广,以统一的方式产生全景分割。我们证明了它显著优于竞争性的基线。训练代码和预训练模型可在https://github.com/facebookresearch/detr获取。

1 引言

目标检测的目标是预测每个感兴趣目标的边界框和类别标签。现代检测器通过在一组大量的提议[37,5]、锚框[23]或窗口中心[53,46]上定义替代回归和分类问题,来间接解决这个集合预测任务。它们的性能受到后处理步骤的显著影响,这些步骤用于合并近似重复的预测,受到锚框集设计的影响,以及将目标框分配给锚框的启发式方法的影响[52]。为了简化这些流程,我们提出了一种直接的集合预测方法,以绕过替代任务。这种端到端的理念在复杂的结构化预测任务(如机器翻译或语音识别)中取得了显著进展,但在目标检测中尚未实现:之前的尝试[43,16,4,39]要么添加了其他形式的先验知识,要么在具有挑战性的基准测试中尚未证明能与强大的基线相竞争。本文旨在弥合这一差距。

我们通过将目标检测视为直接的集合预测问题,来简化训练流程。我们采用基于变换器[47]的编码器-解码器架构,这是一种流行的序列预测架构。变换器的自注意力机制显式建模序列中元素之间的所有成对交互,这使得这些架构特别适合于集合预测的特定约束,如去除重复预测。

我们的检测变换器(DETR,见图1)一次性预测所有目标,并使用集合损失函数进行端到端训练,该函数在预测目标和真实目标之间进行二分匹配。DETR通过去除多个编码先验知识的手工设计组件(如空间锚框或非极大值抑制)来简化检测流程。与大多数现有的检测方法不同,DETR不需要任何定制层,因此可以在包含标准CNN和变换器类的任何框架中轻松复现。

图 1: DETR directly predicts (in parallel) the final set of detections by combining a common CNN with a transformer architecture.
 

与以往关于直接集合预测的大多数工作相比,DETR的主要特点是二分匹配损失和变换器与(非自回归)并行解码[29,12,10,8]的结合。相比之下,以往的工作侧重于使用RNN的自回归解码[43,41,30,36,42]。我们的匹配损失函数唯一地将预测分配给真实目标,并且对预测目标的排列是不变的,因此我们可以并行地发出它们。

我们在最受欢迎的目标检测数据集之一COCO[24]上评估了DETR,与非常有竞争力的Faster R-CNN基线[37]进行了比较。Faster R-CNN经历了许多设计迭代,其性能自最初发表以来得到了极大的提高。我们的实验表明,我们的新模型实现了相当的性能。更具体地说,DETR在大目标上表现出显著更好的性能,这一结果很可能是由变换器的非局部计算所实现的。然而,它在小目标上的性能较低。我们预计未来的工作将像FPN[22]对Faster R-CNN的发展那样,改善这一方面。

DETR的训练设置与标准的目标检测器在多个方面有所不同。新模型需要更长的训练计划,并从Transformer中的辅助解码损失中获益。我们彻底探索了哪些组件对于所展示的性能至关重要。

DETR的设计理念很容易扩展到更复杂的任务。在我们的实验中,我们展示了一个在预训练的DETR之上训练的简单分割头在全景分割[19]这一具有挑战性的像素级识别任务上优于有竞争力的基线。

2 相关工作

我们的工作建立在多个领域的先前工作之上:用于集合预测的二元匹配损失、基于Transformer的编码器-解码器架构、并行解码以及目标检测方法。

2.1 集合预测

没有用于直接预测集合的规范深度学习模型。基本的集合预测任务是多标签分类(例如,参见[40,33]在计算机视觉背景下的参考文献),对于该问题,基线方法(一对一剩余)不适用于如检测这样存在元素间底层结构(即近乎相同的框)的问题。这些任务中的第一个困难是避免近乎重复的项。大多数当前的检测器使用如非极大值抑制的后处理来解决这个问题,但直接集合预测是无需后处理的。它们需要全局推理方案来建模所有预测元素之间的相互作用,以避免冗余。对于恒定大小的集合预测,密集的全连接网络[9]是足够的,但成本高昂。一种通用方法是使用如循环神经网络[48]的自回归序列模型。在所有情况下,损失函数应该对预测的排列保持不变。通常的解决方案是基于匈牙利算法[20]设计损失,以找到真实值和预测之间的二分匹配。这强制实现排列不变性,并保证每个目标元素都有一个唯一匹配。我们遵循二分匹配损失的方法。然而,与大多数先前的工作不同,我们放弃了自回归模型,而使用具有并行解码的Transformer,我们将在下面进行描述。

2.2 Transformer和并行解码

Transformer是由Vaswani等人[47]作为机器翻译的一种新的基于注意力的构建块而引入的。注意力机制[2]是神经网络层,它从整个输入序列中聚合信息。Transformer引入了自注意力层,它类似于非局部神经网络[49],扫描序列的每个元素并通过从整个序列聚合信息来更新它。基于注意力的模型的主要优点之一是它们的全局计算和完美记忆,这使得它们比循环神经网络更适合处理长序列。Transformer现在正在自然语言处理、语音处理和计算机视觉的许多问题中取代循环神经网络。

Transformer最初用于自回归模型,遵循早期的序列到序列模型[44],逐个生成输出标记。然而,高昂的推理成本(与输出长度成正比,且难以批量处理)导致了并行序列生成的发展,应用于音频[29]、机器翻译[12,10]、词表示学习[8]等领域,以及最近应用于语音识别[6]。我们还结合了Transformer和并行解码,因为它们在计算成本和执行集合预测所需的全局计算之间提供了合适的权衡。

2.3 目标检测

大多数现代目标检测方法都是基于一些初始猜测进行预测的。两阶段检测器[37,5]根据候选区域预测边界框,而单阶段方法则

end-to-end object detection with transformers》是关于使用transformers进行端到端目标检测的一篇参考文献。目标检测是计算机视觉领域的一个重要任务,旨在从图像或视频中识别和定位出物体的位置与类别。传统的目标检测方法通常将这一任务分为两个步骤,即生成候选区域和对这些候选区域进行分类。然而,这种两步骤的方法存在一定的缺点,如效率低、需要手动选择参数等。 这篇参考文献中提出了一种端到端的目标检测方法,使用transformers模型来直接进行物体检测任务。transformers是一种基于自注意力机制的神经网络模型,在自然语言处理领域已经取得了很大的成功。借鉴transformers的思想,文中提出了一种新的目标检测方法,称为DETR(Detection Transformer)。 DETR模型采用了一个编码器-解码器架构,其中编码器是一个transformers模型,用于对输入图像进行特征提取。解码器则是一种由全连接层和多层感知机组成的结构,用于预测目标的位置和类别。与传统的两步骤方法不同,DETR模型通过将目标检测转化为一个集合问题,并使用transformers模型进行集合元素之间的关联和特征提取。通过在训练过程中引入损失函数,模型可以学习到物体的位置和类别信息。 该文献通过在COCO数据集上进行实验证明了DETR模型的有效性,并与传统的目标检测方法进行了比较。实验结果表明,DETR模型在准确性和效率上都有显著的提升。此外,DETR模型还具有良好的扩展性,可以应用于不同大小和类型的目标检测任务。 综上所述,《end-to-end object detection with transformers》这篇参考文献介绍了一种基于transformers的端到端目标检测方法,并通过实验证明了其有效性和优越性。该方法的提出为目标检测领域的研究和应用带来了新的思路和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值