论文连接:https://arxiv.org/pdf/2212.07593
概况:
基于DETR的目标检测模型改进,DETR主要通过子注意力记住将解码交叉关注模块中将对象查询转换为内容查询和空间查询,并且搭建了像素之间的相关联通过查询机制。并从解码器嵌入中学习条件空间查询,以快速学习地面实况对象的独特极端。
相关研究:
Anchor-DETR ,DAB-DETR,DN-DETR,Adamixer,DETA等
在MS-COCO参数集上对不同网络的推理速度和AP进行了比较。红星是经过训练的结果
SQR。蓝色圆圈是没有SQR的基线结果。SQR增强了基于query(查询)的对象检测器的训练,同时保持推理pipeline不变。
改进动机:
1.尽管这些在DETR上有了显著的改进,但很少关注训练重点和级联错误。我们建议SQR关注这两个问题。
2.观察到解码器在相当大比例的情况下会出错,其中后期阶段会降低真阳性并升级前一阶段的假阳性。
3.由于解码器的顺序结构,由一个阶段细化的中间查询-无论该细化带来正面还是负面影响-将被级联到后续阶段,而细化之前的查询永远不会有机会向前传播。
4.早期阶段可能会犯错误,但不会造成太大的影响,而后期阶段对最终预测的责任更大。但在培训过程中,所有这些阶段都是以同等的方式进行监督,缺乏这样一种机制,将培训重点放在后面的阶段。
引入新指标(TP fading rate , FP exacerbation rate):
分别比较了不同联级的输出,分别对比了stage 1~5的输出结果和stage6的输出结果,这里的对比不仅仅是通过map为衡量指标,还提出了关于categorie score 以及 匹配 iou的评估指标。具体而言,是通过6阶段的对应的TP地面真实值,然后反观1-5阶段的输出是否具有更高对应地面真实值的 IoU & category score,如果有则称之为(TP fading rate) ,不仅如此,还对比(FP),如果 1-5阶段的输出有更低的fp值,则称之为(FP exacerbation rate)。
现存状况:
引入该指标后,我们用该指标去反馈当前研究阶段存在的相关问题,由该表格我们很容易发现,两个模型的TP fading rate 分别达到50%和27%。在严格的约束条件下,TP衰落率达到了一个非常高的水平。Deformable DETR 比Adamixer高得多,由于其在不同阶段之间的mAP差距较小。型较小的 AP Gap 表示模的性能更均从而得早期阶段的表现可能使优于后期阶段。FP exacerbation rate 具有更宽松的约束条件,更容易被满足,在两个模型上其比率都在50%以上。TP阈值越高,last stage 的质量越高,在之前的stage中更难找到qualifiers。
· 解决思想 - (1)Dense QR , (2)Selective QR:
核心算法:当前decoding的output加上上个decoding的输出结果作为下个decoding的input,将每个阶段的输出结构作为监督的对象,和用来和6阶段的输出结果进行地面真实值的匹配比较各阶段的输出结果,(i,e 两个率)。
方法差异:提出两种算法,dqr 和 sqr的区别在于是否有选性的将上个阶段的可监督对象的查询向量结合当前的输出结果作为下一decoding的input。
通俗理解:这也就相当于将早期的未衰落的因子加到后期的decoding中,结合之前的查询向量,以防衰落的更加严重,从而达到更好的检测指标(权衡于mAP和两个rate)。
Dense QR:
Selective QR:
实验结果:
由实验结果我们不难发现,基于baseline和相同的IOU的前提下分别降低了对应的rate 。从消融实验下的平均精度中来看也不难发现,也取得了相当不错的成绩 。
不仅对给改进的model的最终结果来我们还对比了改进结果中每个阶段的输出 q做了监督,实验数据皆在表格中呈现。这部分简单就不做过多诠释。
总结:
研究了一种现象,即基于查询的目标检测器的最佳检测并不总是来自最后一个解码阶段,有时也可以来自中间的解码阶段。首先认识到导致该问题的两个局限性,即缺乏训练重点和查询序列的级联错误。选择性查询回忆(Selective Query Recollection, SQR)是一种简单有效的训练策略。在各种训练设置中,SQR大大提高了Adamixer、DABDETR和Deformable-DETR