【CVPR2024】Salience DETR: 端到端目标检测计算量减少30%且性能更高!

该文章已生成可运行项目,

【CVPR2024】Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement

机构:西安交通大学、浙江大学

论文地址:https://arxiv.org/abs/2403.16131

代码地址:https://github.com/xiuqhou/Salience-DETR

论文讲解:https://www.bilibili.com/video/BV1sM4m1k7y7

代码讲解:https://www.bilibili.com/video/BV1gt421u79u

本文主要解决DETR方法中计算量高小物体难检测的问题,考虑到前景比背景信息更重要,文章提出了分层过滤的机制,仅对前景query进行注意力编码,从而降低计算量。并提出了一系列即插即用的query微调模块来加强query之间的信息交互和融合。Salience-DETR相比DINO降低了30%计算量,速度更快,同时性能更高,与Rank-DETR相当。

文章贡献/创新点

  • 分析了目标检测存在的两个问题:冗余性和尺寸偏好。
  • 提出分层过滤的机制来从特征图和Transformer layer两个层次对query进行过滤,降低计算量。
  • 针对过滤后query之间的特征差异,提出三个即插即用的微调模块提升性能。
  • 实验验证了所提方法的有效性,相比DINO降低30%计算量但性能更高。

两阶段DETR存在的问题:冗余性和尺寸偏好

主流的高性能DETR采用两阶段的流程:backbone提取多尺度特征图,一阶段Encoder将特征图映射为query,二阶段Decoder筛选最重要的 n n n个query进行解码,并通过检测头将其映射为检测结果。文章发现两阶段筛选出的query存在两个问题:

  • 冗余性:很多query并没有匹配到物体上,存在冗余性。
  • 尺寸偏好:很多query会重复地匹配到大目标上,而有些小目标则匹配不到query,导致小尺寸目标难以被检测到。

冗余性和尺寸偏好

文章对此提出了Salience-DETR,在Encoder中引入了分层过滤机制,在Decoder之前的筛选过程引入了微调机制,来解决这些问题。

Salience-DETR结构图

分层过滤机制

Salience-DETR引入了额外的MLP去预测query的显著性分数,仅过滤出最显著的query进行Encoder编码,从而降低计算量。

显著性分数

通常来说,离目标越近的query越重要,且前景比背景重要,中心比边缘重要。已有工作Focus-DETR是将处于背景区域的query分数设为0,前景分数设为1,来强调前景比背景重要。Salience-DETR则进一步让分数随着与物体中心的距离增加而逐渐衰减,接近物体中心的query分数接近1,接近物体边缘的query分数接近0,以强调中心比边缘重要:

θ l ( i , j ) = { d ( c , D B b o x ) , c ∈ D B b o x 0         , c ∉ D B b o x \theta_l^{(i,j)}=\left\{ \begin{aligned} d(\boldsymbol c,\mathcal D_{Bbox}),\boldsymbol c\in\mathcal D_{Bbox}\\ 0~~~~~~~,\boldsymbol c\notin\mathcal D_{Bbox} \end{aligned} \right. θl(i,j)={ d(c,DBbox),cDBbox0       ,c/DBbox

其中 c = ( x , y ) \boldsymbol c=(x,y) c=(x,y)表示每个query在特征图上的坐标, c ∈ D B b o x \boldsymbol c\in\mathcal D_{Bbox} cDBbox表示处于目标框中的物体。对于处于目标框中的物体,按照如下规则进行衰减:

d ( c , D B b o x ) = 1 − 2 ( Δ x w ) 2 + 2 ( Δ y h ) 2 d(\boldsymbol c, \mathcal D_{Bbox})=1-\sqrt{2\left(\frac{\Delta x}w\right)^2+2\left(\frac{\Delta y}h\right)^2} d(c,DBbox)=12(wΔx)2+

本文章已经生成可运行项目
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值