【NIPS2023】Rank-DETR for High Quality Object Detection

最新推荐文章于 2025-03-07 14:02:35 发布

原创

最新推荐文章于 2025-03-07 14:02:35 发布 · 1.3k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #人工智能 #计算机视觉

【NIPS2023】Rank-DETR for High Quality Object Detection

机构：清华大学、北京大学、剑桥大学、微软亚洲研究院

论文地址：https://arxiv.org/abs/2310.08854

代码地址：https://github.com/LeapLabTHU/Rank-DETR

作者简介：黄高，清华大学博士学位，康奈尔大学计算机系博士后，清华大学自动化系助理教授、博士生导师，获阿里巴巴“达摩院青橙奖”、2019年吴文俊人工智能优秀青年奖等。代表作DenseNet获得CVPR2017年最佳论文、Stochastic Depth。研究方向包括动态神经网络、高效深度学习。

本文考虑到DETR模型中query的重要性存在差异，致力于改进高IoU情况下（例如AP@75）的检测性能，首次提出基于排序思想的Rank-DETR，在Transformer中引入排序相关的网络层、排序导向的损失函数和匈牙利匹配损失。在COCO数据集上的性能高于DINO、Align-DETR、GroupDETR等baseline，与Stable-DINO、MS-DETR、Salience-DETR相当，弱于DDQ-DETR、Co-DETR、Relation-DETR等SOTA方法。

文章贡献/创新点

在Transformer Decoder中提出了基于rank机制改进的分类头和query排序层。
在损失函数（网络损失和匈牙利匹配损失）中对分类和回归分支进行对齐，使得高置信度的query也具有高IoU。
实验验证了所提方法的有效性，并将rank机制引入到已有DETR方法中验证了有效性。

排序相关的结构设计

排序自适应的分类头

常规的DETR方法中，backbone提取多尺度特征，transformer将其映射为6层Decoder输出（两阶段方法还会多1层Encoder输出），每层的输出都是 $n$ 个query（原始DETR中 $n = 100$ 、DeformableDETR中 $n = 300$ 、DINO中 $n = 900$ ），针对第 $l$ 层的每个query，表示为 $q_i^l$ ，head将其映射为分类结果 $\boldsymbol p_i^l$ +回归结果，其中分类头是单层全连接：