【NIPS2023】Rank-DETR for High Quality Object Detection

【NIPS2023】Rank-DETR for High Quality Object Detection

机构:清华大学、北京大学、剑桥大学、微软亚洲研究院

论文地址:https://arxiv.org/abs/2310.08854

代码地址:https://github.com/LeapLabTHU/Rank-DETR

作者简介:黄高,清华大学博士学位,康奈尔大学计算机系博士后,清华大学自动化系助理教授、博士生导师,获阿里巴巴“达摩院青橙奖”、2019年吴文俊人工智能优秀青年奖等。代表作DenseNet获得CVPR2017年最佳论文、Stochastic Depth。研究方向包括动态神经网络、高效深度学习。

本文考虑到DETR模型中query的重要性存在差异,致力于改进高IoU情况下(例如AP@75)的检测性能,首次提出基于排序思想的Rank-DETR,在Transformer中引入排序相关的网络层、排序导向的损失函数和匈牙利匹配损失。在COCO数据集上的性能高于DINO、Align-DETR、GroupDETR等baseline,与Stable-DINO、MS-DETR、Salience-DETR相当,弱于DDQ-DETR、Co-DETR、Relation-DETR等SOTA方法。

文章贡献/创新点

  • 在Transformer Decoder中提出了基于rank机制改进的分类头和query排序层。
  • 在损失函数(网络损失和匈牙利匹配损失)中对分类和回归分支进行对齐,使得高置信度的query也具有高IoU。
  • 实验验证了所提方法的有效性,并将rank机制引入到已有DETR方法中验证了有效性。

排序相关的结构设计

排序相关的结构设计

排序自适应的分类头

常规的DETR方法中,backbone提取多尺度特征,transformer将其映射为6层Decoder输出(两阶段方法还会多1层Encoder输出),每层的输出都是 n n n个query(原始DETR中 n = 100 n=100 n=100、DeformableDETR中 n = 300 n=300 n=300、DINO中 n = 900 n=900 n=900),针对第 l l l层的每个query,表示为 q i l q_i^l qil,head将其映射为分类结果 p i l \boldsymbol p_i^l pil+回归结果,其中分类头是单层全连接:

p i l = S i g m o i d ( r i l ) , t i l = MLP cls ( q i l ) \boldsymbol p_i^l=\mathrm{Sigmoid}(\boldsymbol r_i^l), \boldsymbol t_i^l=\text{MLP}_\text{cls}(\boldsymbol q_i^l) pil=Sigmoid(ril),til=MLPcls(qil)

本文提出的排序自适应分类头其实就是为每个query增加了对应的embedding,两者加起来再进行分类:

p i l = S i g m o i d ( t i l + s i l ) , t i l = MLP cls ( q i l ) \boldsymbol p_i^l=\mathrm{Sigmoid}(\boldsymbol t_i^l+\boldsymbol s_i^l), \boldsymbol t_i^l=\text{MLP}_\text{cls}(\boldsymbol q_i^l) pil=Sigmoid(til+sil),til=MLPcls(qi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值