论文全称为:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
提出了三个新的方法:
-
首先,为了改进一对一的匹配效果,提出了一种对比去噪训练方法,通过同时添加同一个GT的正、负样本来进行对比去噪训练。在同一个GT中加入两个不同的噪声后,将具有较小噪声的框标记为正,另一个标记为负。对比去噪训练可以帮助模型避免同一目标的重复输出
-
其次,使用了一种类似两阶段的模型(Deformable DETR的two stage)。提出了一种混合查询选择方法,这有助于更好地初始化查询. 从encoder的输出中选择初始锚定框作为位置查询,类似于Deformable DETR.然而,让内容查询像以前一样可以学习,从而鼓励第一个解码器层关注空间先验(空间位置先验与当前的图像更加的相关)
-
第三,为了利用后期层的refined box信息来帮助优化相邻早期层的参数,提出了一种新的look forward twice方案,用后面的层的梯度来修正更新后的参数

DINO-DETR的整体架构如上图所示,首先通过backbone得到多尺度的特征,然后给特征加上位置编码,将他们喂给Transformer Encoder得到增强后的特征。在decoder之前,作者将原本的decoder query视作两个部分,位置query和内容query。作者提出了一种新的混合的query selection策略来初始化作为位置query的anchors,但是内容query不会初始化(仍然是可学习的使它们保持可学习性)。通过这些用初始化后的anchors(位置)和可学习的内容query, 作者使用Deformable-DETR的deformable attention来组合来自encoder输出的特征,逐层更新decoder query。最终网络通过内容query预测refined anchor boxes和分类等结果。同时作者改进了DN-DETR,提出了一个对比去噪训练的方法,在DN-DETR的基础上将困难负样本考虑在内。最后为了充分利用后层refined box的信息来优化紧邻的前一层的网络参数,作者还提出了一个look forward twice方法。下面分别详细讲讲上述提到的几个改进。
对比去噪训练
DN-detr的去噪训练帮助网络学习基于那些在gt boxes周围的anchors进行预测。但是它没有考虑去预测“no object"的情况,即那些anchors周围没有gt boxes的时候,应该预测出负例。因此作者在DN-DETR的基础上额外构造了负样本,即提出Contrastive DeNoising (CDN)。
在实现上,DINO-DETR拥有两个超参数 λ1,λ2(λ1<λ2) 用于控制正负噪声样本的生成,而DN-DETR只有一个超参数 λ ,DN-DETR控制生成的噪声不超过 λ 并期望网络可以用在gts附近的轻微噪声querys去重构出gts。
如下图右侧所示的同心正方形,DINO-DETR构造正负两种类型的CDN queries,其中positive queries在内部方形,有着比 λ1 更小的噪声scale, 用于重构出他们对应的gts;negative queries在内部方形和外部方形之间,即噪声scale在λ1,λ2(λ1<λ2)之间。作者表示可以通过更小的 λ2 构造困难负样本来提高模型性能。一个CND group可以包含多个正样本和负样本,例如一张图片有n个gts, 每个gt有一正一负两个噪声样本,那么一个CND group有2xn个queries。

该方法之所以有效,是因为它可以抑制混淆,并选择高质量的anchors(查询)来预测边界框。当多个anchors靠近一个对象时,就会发生混淆,在这种情况下,模型很难决定选择哪个锚点。这种混淆可能会导致两个问题:
- 第一个是重复的预测。虽然detr类的模型可以通过基于集合的损失和自我注意的帮助来抑制重复的盒子,但这种能力是有限。使用CDN查询,可以区分anchors之间的细微差别,并避免重复的预测
- 第二个问题是,一个远离GT并且不应该被选择的某个anchor可能会被选择上,虽然去噪训练改进了模型来选择附近的anchor。但CDN通过让模型拒绝更远的anchor,进一步提高了这种能力。
混合查询选择
如(a)所示,在DETR 、DN-DETR 和DAB-DETR 中,解码器查询是静态嵌入,而不从图像中获取任何编码器特征,它们直接从训练数据中学习位置和内容查询,并将内容查询设置为全部都是0的tensor;Deformable Detr的其中一个变体(two-stage),它从编码器最后输出中选择前K个编码器特征作为先验,以增强解码器查询。如图(b)所示,位置查询和内容查询都是通过对所选特性的线性变换生

最低0.47元/天 解锁文章
2296

被折叠的 条评论
为什么被折叠?



