【CVPR2024】Salience DETR: 端到端目标检测计算量减少30%且性能更高!

原创

已于 2024-07-20 21:16:58 修改 · 5.8k 阅读

65 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #目标检测 #计算机视觉

于 2024-07-20 21:06:55 首次发布

该文章已生成可运行项目，

【CVPR2024】Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement

机构：西安交通大学、浙江大学

论文地址：https://arxiv.org/abs/2403.16131

代码地址：https://github.com/xiuqhou/Salience-DETR

论文讲解：https://www.bilibili.com/video/BV1sM4m1k7y7

代码讲解：https://www.bilibili.com/video/BV1gt421u79u

本文主要解决DETR方法中计算量高、小物体难检测的问题，考虑到前景比背景信息更重要，文章提出了分层过滤的机制，仅对前景query进行注意力编码，从而降低计算量。并提出了一系列即插即用的query微调模块来加强query之间的信息交互和融合。Salience-DETR相比DINO降低了30%计算量，速度更快，同时性能更高，与Rank-DETR相当。

文章贡献/创新点

分析了目标检测存在的两个问题：冗余性和尺寸偏好。
提出分层过滤的机制来从特征图和Transformer layer两个层次对query进行过滤，降低计算量。
针对过滤后query之间的特征差异，提出三个即插即用的微调模块提升性能。
实验验证了所提方法的有效性，相比DINO降低30%计算量但性能更高。

两阶段DETR存在的问题：冗余性和尺寸偏好

主流的高性能DETR采用两阶段的流程：backbone提取多尺度特征图，一阶段Encoder将特征图映射为query，二阶段Decoder筛选最重要的 $n$ 个query进行解码，并通过检测头将其映射为检测结果。文章发现两阶段筛选出的query存在两个问题：

冗余性：很多query并没有匹配到物体上，存在冗余性。
尺寸偏好：很多query会重复地匹配到大目标上，而有些小目标则匹配不到query，导致小尺寸目标难以被检测到。

冗余性和尺寸偏好

文章对此提出了Salience-DETR，在Encoder中引入了分层过滤机制，在Decoder之前的筛选过程引入了微调机制，来解决这些问题。

Salience-DETR结构图

分层过滤机制

Salience-DETR引入了额外的MLP去预测query的显著性分数，仅过滤出最显著的query进行Encoder编码，从而降低计算量。

显著性分数

通常来说，离目标越近的query越重要，且前景比背景重要，中心比边缘重要。已有工作Focus-DETR是将处于背景区域的query分数设为0，前景分数设为1，来强调前景比背景重要。Salience-DETR则进一步让分数随着与物体中心的距离增加而逐渐衰减，接近物体中心的query分数接近1，接近物体边缘的query分数接近0，以强调中心比边缘重要：

$\theta_l^{(i,j)}=\left\{ \begin{aligned} d(\boldsymbol c,\mathcal D_{Bbox}),\boldsymbol c\in\mathcal D_{Bbox}\\ 0~~~~~~~,\boldsymbol c\notin\mathcal D_{Bbox} \end{aligned} \right.$