【CVPR2024】Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement
机构:西安交通大学、浙江大学
论文地址:https://arxiv.org/abs/2403.16131
代码地址:https://github.com/xiuqhou/Salience-DETR
本文主要解决DETR方法中计算量高、小物体难检测的问题,考虑到前景比背景信息更重要,文章提出了分层过滤的机制,仅对前景query进行注意力编码,从而降低计算量。并提出了一系列即插即用的query微调模块来加强query之间的信息交互和融合。Salience-DETR相比DINO降低了30%计算量,速度更快,同时性能更高,与Rank-DETR相当。
文章贡献/创新点
- 分析了目标检测存在的两个问题:冗余性和尺寸偏好。
- 提出分层过滤的机制来从特征图和Transformer layer两个层次对query进行过滤,降低计算量。
- 针对过滤后query之间的特征差异,提出三个即插即用的微调模块提升性能。
- 实验验证了所提方法的有效性,相比DINO降低30%计算量但性能更高。
两阶段DETR存在的问题:冗余性和尺寸偏好
主流的高性能DETR采用两阶段的流程:backbone提取多尺度特征图,一阶段Encoder将特征图映射为query,二阶段Decoder筛选最重要的 n n n个query进行解码,并通过检测头将其映射为检测结果。文章发现两阶段筛选出的query存在两个问题:
- 冗余性:很多query并没有匹配到物体上,存在冗余性。
- 尺寸偏好:很多query会重复地匹配到大目标上,而有些小目标则匹配不到query,导致小尺寸目标难以被检测到。

文章对此提出了Salience-DETR,在Encoder中引入了分层过滤机制,在Decoder之前的筛选过程引入了微调机制,来解决这些问题。

分层过滤机制
Salience-DETR引入了额外的MLP去预测query的显著性分数,仅过滤出最显著的query进行Encoder编码,从而降低计算量。
显著性分数
通常来说,离目标越近的query越重要,且前景比背景重要,中心比边缘重要。已有工作Focus-DETR是将处于背景区域的query分数设为0,前景分数设为1,来强调前景比背景重要。Salience-DETR则进一步让分数随着与物体中心的距离增加而逐渐衰减,接近物体中心的query分数接近1,接近物体边缘的query分数接近0,以强调中心比边缘重要:
θ l ( i , j ) = { d ( c , D B b o x ) , c ∈ D B b o x 0 , c ∉ D B b o x \theta_l^{(i,j)}=\left\{ \begin{aligned} d(\boldsymbol c,\mathcal D_{Bbox}),\boldsymbol c\in\mathcal D_{Bbox}\\ 0~~~~~~~,\boldsymbol c\notin\mathcal D_{Bbox} \end{aligned} \right. θl(i,j)={ d(c,DBbox),c∈DBbox0 ,c∈/DBbox
其中 c = ( x , y ) \boldsymbol c=(x,y) c=(x,y)表示每个query在特征图上的坐标, c ∈ D B b o x \boldsymbol c\in\mathcal D_{Bbox} c∈DBbox表示处于目标框中的物体。对于处于目标框中的物体,按照如下规则进行衰减:
d ( c , D B b o x ) = 1 − 2 ( Δ x w ) 2 + 2 ( Δ y h ) 2 d(\boldsymbol c, \mathcal D_{Bbox})=1-\sqrt{2\left(\frac{\Delta x}w\right)^2+2\left(\frac{\Delta y}h\right)^2} d(c,DBbox)=1−2(wΔx)2+

最低0.47元/天 解锁文章
163

被折叠的 条评论
为什么被折叠?



