一、本文介绍
本文记录的是利用DAT可变形注意力模块优化RT-DETR的目标检测网络模型。DAT全称为Deformable Attention Transformer,其作用在于通过可变形注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于相关区域并捕捉更有信息的特征。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
文章目录
二、Deformable Attention Transformer介绍
Vision Transformer with Deformable Attention
2.1 出发点
- 解决现有注意力机制的问题
- 现有的
Vision Transformers存在使用密集注意力导致内存和计算成本过高,特征可能受无关区域影响的问题。 Swin Transformer采用的稀疏注意力是数据不可知的,可能限制对长距离关系建模的能力。
- 现有的
- 借鉴可变形卷积网络(DCN)的思想
DCN在CNN中通过学习可变形感受野,能在数据依赖的基础上选择性地关注更有信息的区域,取得了很好的效果,启发了在Vision Transformers中探索可变形注意力模式。

订阅专栏 解锁全文
3463

被折叠的 条评论
为什么被折叠?



