Transformer在目标检测的几篇论文

最新推荐文章于 2025-11-25 17:50:02 发布

原创

最新推荐文章于 2025-11-25 17:50:02 发布 · 2.1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #计算机视觉

Transformer在目标检测的几篇论文

blog记录最近看的两篇文章

如果你了解第二篇文章，那么第三篇文章就相对容易。

前置废话

最近看了几篇文章，姑且记录下来。最近Transformer在视觉上的paper不断增多，各种idea层出不穷，如swin transformer等。但一切都有迹可循。本blog记录关于目标检测两篇比较有代表性的paper。

前置知识

了解最原始的Transformer,
优化分配问题(匈牙利法)。

这里简述关于这两点知识。

Transformer

SelfAttetion

对于给定的Feature Map $\in R^{c\times h \times w}$ , 不妨设置得到的 $Q$ , $K$ 和 $V$ 都是相同维度，即 $\in R^{c\times h \times w}$ .将 $Q, K, V$ 分别 $r e s h a p e$ 到 $R^{hw\times c}$ ,那么 $SA = QK^{T}$ ,进一步做归一化，可以得到
$softmax(\frac{QK^{T}}{\sqrt{d_{k}}})$ 最终得到的输出
$softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$
可以看到 $\in R^{hw\times hw}$ , $\in R^{hw \times c}$ ,这就是想要的结果.
Multi-head机制只是把通道数拆成多份，如 $m$ 份，那么上述的shape就变成了 $Q,K,V\in R^{h\times w\times \frac{c}{m}}$ ,最后将m个head进行 $c o n c a t$ ,得到 $Attention\in R^{hw\times c}$ . $c r o s s - a t t e t i o n$ 和这个类似，只不过 $K$ 和 $V$ 的来源不同而已，这里不再过多的赘述。