Deformable DETR 论文笔记

最新推荐文章于 2025-09-15 08:30:00 发布

原创

最新推荐文章于 2025-09-15 08:30:00 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #深度学习 #计算机视觉 #目标检测

DeformableDETR通过引入可变形注意力模块解决了DETR在处理图像特征时的收敛速度慢和特征空间分辨率有限的问题。这种改进允许模型关注目标周围的关键采样点，提高了小物体检测性能，并减少了训练时间。此外，通过迭代边界框细化和两阶段设计，DeformableDETR进一步提升了检测精度。

Deformable DETR

Deformable DETR: Deformable Transformers for end-to-end object detection

Deformable DETR: Deformable Transformers for end-to-end object detection

DETR消除了目标检测中许多手工设计的组件，同时又有良好的性能

但由于Transformer Attention模块在处理图像特征图时的限制，具有收敛速度慢，特征空间分辨率有限的问题

为了缓解这些问题，提出了Deformable DETR，它的注意力模块只关注一个目标周围的一小部分关键采样点

Deformable DETR可以获得比DETR（特别是在小物体上）更好的性能，仅使用十分之一的epochs
因此训练速度有了十倍的速度提升

现代的目标检测器使用了许多手工制作的组件，例如，anchor生成、基于特定规则的GT目标分配、非最大抑制（NMS）的后处理

最近提出的DETR，消除了此类手工制作组件的需要，并建立了第一个完全端到端对象检测器，实现了非常具竞争力的性能

DETR利用了一个简单的结构，结合了卷积神经网络（CNNs）和Transformer的编码器-解码器

他们利用Transformer在适当设计的训练信号下的通用和强大的关系建模能力来取代手工制作的规则

尽管DETR有趣的设计和良好的性能，但它也有自己的问题：

它需要比现有的目标探测器更长的训练周期来收敛
1. 如在coco数据集上，DETR需要500个epoch，比Faster R-CNN慢了10-20倍
DETR在检测小物体方面的性能相对较低
1. 现代物体探测器通常利用多尺度特征，即从高分辨率特征图中检测到小物体
2. 同时，高分辨率的特征图导致了DETR不可接受的复杂性

在初始化时，Attention模块对特征图中的所有像素施加了几乎一致的注意权重
长时间的训练周期是学习注意力权重的必要条件，用以关注到稀疏的有意义的位置
另一方面，Transformer编码器中的注意权值计算是像素数量的平方级。因此，处理高分辨率的特征映射具有非常高的计算和内存复杂性。

在图像领域，可变形卷积是一种可以关注到稀疏空间位置的机制
它很自然地避免了上述问题。而它缺乏元素关系建模机制，这也是DETR可以成功的关键。

Deformable DETR，缓解了DETR的缓慢收敛和高复杂性的问题
它结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力

我们提出了可变形的注意模块，它关注一个小型的采样位置
这也算是作为所有特征图像素中突出的关键元素的预滤波器

该模块可以很自然地扩展到聚合多尺度特性，而不需要FPN的帮助

在Deformable DETR中，我们利用（多尺度的）可变形的注意模块来代替Transformer的注意模块来处理特征图

请添加图片描述

Deformable DETR为我们利用端到端对象检测器的变体提供了可能性，这要归功于它的快速收敛性、计算量和内存效率
这里是说因为Deformable DETR可以进行快速的训练，那么就会有助于开发其他类型的DETR变体
因为更快的训练速度也会对进行网络设计实验有益处

Deformable DETR 探索了一种简单而有效的迭代边界盒细化机制来提高检测性能
还尝试了一个两阶段的Deformable DETR，其中region proposal 也由一个Deformable DETR生成，并进一步输入解码器进行迭代边界盒细化

在COCO基准上进行的大量实验证明了方法的有效性。
与DETR相比，Deformable DETR可以在缩小训练周期10×倍的情况下获得更好的性能（特别是在小物体上）。

并且提出的Deformable DETR变体可以进一步提高性能

Transformer有两种注意力机制，自我注意以及交叉注意机制
Transformer最广为人知的问题之一是在大量key元素数下的高时间和内存复杂性，这在许多情况下阻碍了模型的可伸缩性

最近，人们为解决这个问题做出了许多努力，在实践中可以大致分为三类

第一类是在key上使用预定义的稀疏注意模式
最直接的范例是将注意力模式限制为固定的本地窗口
虽然将注意力模式限制在一个局部邻域可以降低复杂性，但它会丢失全局信息

第二类是学习与数据相关的稀疏注意

第三类是探索自我注意中的低等级性质

另一方面，存在卷积的变种，如可变形卷积和动态卷积，也可以视为自我注意机制。
特别是，可变形卷积在图像识别上比变压器自注意更有效。但是它也缺乏元素关系建模机制。

可变形注意力模块是受到可变形卷积的启发，属于第二类。
它只关注从查询元素的特征预测的一小组固定的采样点。
在相同的流量下，可变形的注意只是比传统的卷积稍慢

目标检测的多尺度特征表示
目标检测的主要困难之一是要在非常不同的尺度上有效地表示目标
现代的目标检测器通常利用多尺度的特性来适应这一点

多尺度可变形注意模块可以通过注意机制自然地聚合多尺度特征图，而无需借助这些特征金字塔网络的帮助

Revisiting Transformers and DETR

Multi-head Attention in Transformers

给定一个查询元素（例如输出句子中的目标词）和一组key元素（例如输入句子中的源词），多头注意模块根据衡量query-key对的兼容性的注意权重自适应地聚合key内容
为了使模型聚焦于来自不同表示子空间和不同位置的内容，将不同注意头的输出与可学习的权值线性聚合

$\operatorname{MultiHeadAttn}\left(\boldsymbol{z}_q, \boldsymbol{x}\right)=\sum_{m=1}^M \boldsymbol{W}_m\left[\sum_{k \in \Omega_k} A_{m q k} \cdot \boldsymbol{W}_m^{\prime} \boldsymbol{x}_k\right]$