Conditional-DETR的原理和源码解读

文章介绍了query_pos在跨注意力模型中的初始化改进,包括内容信息和位置信息的解耦处理,以及使用正余弦位置编码和内容预测的参考点缩放量。这些改进导致了更快的收敛速度和较少的训练epoch数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

在这里插入图片描述
query_pos初始化为shape(n,256)
改进点1:在cross_att时候,内容信息和位置信息解偶
具体方法:
( q c o n t e n t + q p o s ) ∗ ( k c o n t e n t + k p o s ) T (q_{content}+q_{pos}) * (k_{content}+k_{pos})^T (qcontent+qpos)(kcontent+kpos)T
改成
c a t ( q c , q p ) ∗ c a t ( k c , k p ) T cat(q_c,q_p) * cat(k_c,k_p)^T cat(qc,qp)cat(kc,kp)T
解释
首先,把特征侧和目标侧分为内容信息(content)和位置(content)
把query分为q_content和q_pos,更好理解query.对应于我之前说的query和query_pos.
第一式子:
q c ∗ k c T + q p ∗ k p T + q c ∗ k p T + q c T ∗ k p q_c*k_c^T+q_p*k_p^T+q_c * k_p^T+q_c^T * k_p qckcT+qpkpT+qckpT+qcTkp
第二式子:
q c ∗ k c T + q p ∗ k p T q_c*k_c^T+q_p*k_p^T qckcT+qpkpT
实现各计算各的相似度再合并
改进点2:在cross_att时候,位置信息包含参考点位置编码和基于内容信息预测的参考点缩放量
具体方法:
参考点经过正余弦位置编码生成位置信息的base量shape(n,256)
内容信息经过线性映射生成位置信息的缩放量shape(n,256)

效果

1.加速收敛,训练的epoch明显减少
2.内容和位置注意力解偶
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知其所以然也

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值