DETR系列文章之–Conditional DETR

Conditional DETR通过解耦空间信息和内容信息,显著提高了DETR模型的收敛速度。通过Conditional Spatial Query限制物体搜索范围,仅修改cross-attention层,就实现了训练速度6-10倍的提升。文章通过可视化注意力热图、结构图和代码解读,详细阐述了这一改进的方法和效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DETR系列文章之–Conditional DETR



前言

Conditional DETR将信息解耦为空间信息和内容信息。 通过Conditional Spatial Query显示地寻找物体的区域范围,从而缩小物体搜索范围,仅仅通过Cross Attention中的微小改动就可以将收敛速度提高6-10倍。
 1、知乎解读
 2、代码地址
 3、论文地址
 4、优快云解读


一、论文介绍

1.1 研究问题

Conditional DETR*主要解决DETR收敛速度慢问题,其中DETR收敛慢原因分析:

  1. encoder–只负责提取特征;
  2. decoder_self-attention–只涉及query之间的去重;
  3. 只有可能是cross-attention导致收敛慢!

cross-attention中query=content query(来自encoder)+ position query(来自decoder_self-attention),去掉第二层object query基本不掉点,顾收敛慢由content query引起

1.2 可视化空间注意力热图

可视化DETR和Condition DETR中decoder_cross-attention的空间注意力热图:(content query + position query)*pk在50 epoch时 DETR不能很好预测物体边界,收敛慢。Condition DETR可以很好预测物体边界,收敛快。进一步验证Condition DETR的有效性!可视化空间注意力热图代码
在这里插入图片描述

1.3 conditional cross attn

分析Detr的交叉注意力计算方式,发现(cq、pq)同时与(ck、pk)交互容易使网络产生困惑,
在这里插入图片描述
故考虑将c和p解耦,即内容注意和空间注意分开:
在这里插入图片描述

1.4 结构图

在这里插入图片描述
首先 position query[N,256]映射成参考点s[N,2],将s映射成和pk(来自encoder)一直的sin编码:
在这里插入图片描述
将cq(来自decoder_self-attention)经过FFN得到T,和ps做点积,得到pq
在这里插入图片描述
然后,pq与经过self-attention的cq拼接,作为cross-attention的输入q
在这里插入图片描述
预测阶段,借助参考点s和预测出偏移量
在这里插入图片描述

二、代码解读

2.1 代码解读

只改动了Detr的交叉注意力部分,Detr代码解读

2.2 核心代码

代码如下(示例):

#-------------------#
# 对应结构图中FFN
#-------------------#
class MLP(nn.Module):
    """ Very simple multi-layer perceptron (also called FFN)"""

    def __init__(self, input_dim, hidden_dim, output_dim, num_layers):
        super().__init__()
        self.num_layers = num_layers
        h = [hidden_dim] * (num_layers - 1)
        self.layers = nn.ModuleList(nn.Linear(n, k) for n, k in zip([
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫撞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值