文章目录
前言
DETR提出了Query Based的端到端目标检测算法,把目标检测看成了一个集合预测的问题,巧妙避开目标检测中常用的Anchor和NMS的方法,具有实现简单、拓展性强的优点。但同时DETR也存在一些问题:
- 训练周期长,相比faster rcnn慢10-20倍
- 对小目标不友好。
Deformable DETR分析了存在上述两个问题的原因,并做出改变以解决上述问题。
1. 模型特点
1.1 分析问题
针对DETR所存在的上述两个问题,分析其原因如下:
- Transformer最大的问题就是在初始化时对于特征图上每个像素的权重几乎都是一样的,而且都非常小,这导致很长的训练周期和需要大量数据去学习。实际上,我们只需要关注少数有意义的点即可。
- 小目标的分辨率往往很低,而DETR的输入特征图分辨率也很低,先用卷积层降低输入图片的分辨率使参数量下降到可计算的范围。如果提高特征图的分辨率会使计算复杂度呈平方倍上升。
1.2 解决方案
Deformable DETR改进如下:
- 采用Deformable Attention,将可变形卷积与Transformer结合,使得注意力机制在小范围中采样,只考虑最有价值的几个点,以降低计算量,加快收敛速度。
- 采用多尺度Deformable Attention。在多尺度特征图上做Deformable Attention,在提高对小目标检测效率的同时,有效控制了参数数量。
为什么不直接使用可变形卷积?
可变形卷积参见论文FCOS。可变形卷积问题在于缺少了对元素间整体关系的建模。模型只知道哪几个点最有价值,却不明白为什么这几个点最有价值。改进的关键就在于将可变形卷积与Transformer结合。
2. 模型结构
使用多尺度可变形注意力机制模块,代替Transformer注意力模块处理特征图。
①Deformable Attention模块:加入了采样模块,不管输入图像多大,只关注目标点附近的几个点。
②多尺度特征:多尺度Deformable Attention模块
2.1 Deformable Attention
思路:采样点个数变少了,为了保持较好的效果,训练偏移量,用 K K K个点替代原来的全部点。

输入特征图 x x x(C x H x W),特征图中每个像素点都是一个C通道的向量 z q z_q zq,每个像素点的索引(Reference Point)也就是二维位置坐标为 p q p_q pq。 M M M代表多头注意力机制中头的数目(原论文中M=8)。每一个头中只考虑 z q z_q zq附近 K K K个点(K远小于H x W,原论文中为K=4)。 Δ p m q k \Delta p_{mqk} Δpmqk代表采样的位置偏移量,是一个二维的坐标(初始化采样点是固定的,但后续将通过全连接层计算预测更加值得关注的点的坐标)。 A m q k A_{mqk} Amq

本文围绕Deformable DETR模型展开,先指出DETR存在训练周期长、对小目标不友好的问题。接着介绍Deformable DETR的特点,采用可变形注意力和多尺度特征解决问题。还阐述了其模型结构,包括各模块原理。最后对模型进行思考分析,并给出下一步计划。
最低0.47元/天 解锁文章
2975

被折叠的 条评论
为什么被折叠?



