(八十三):Vision Transformer with Deformable Attention
- 出处:CoRR abs/2201.00520 (2022)
- 代码:https://github.com/LeapLabTHU/DAT
- 题目:具有变形注意力的视觉变压器
- 主要内容:提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力模块能够专注于相关区域,并捕获更多信息特征。
- 前两个阶段主要学习局部特征,
Abstract
Trnsformers最近在各种视觉任务上表现出卓越的表现。巨大的、有时甚至是全球性的接受域赋予Transformer模型比CNN模型更高的表现能力。然而,单纯扩大接受野也会引起一些问题。
一方面,在ViT中使用密集的注意力会导致内存和计算成本过高,并且特征会受到超出兴趣区域的不相关部分的影响。
另一方面,在PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制建模长期关系的能力。
- 为了缓解这些问题,我们提出了一种新的可变形的自我注意模块,该模块以数据依赖的方式选择了自注意中的键和值对的位置。这种灵活的方案使自注意模块能够聚焦于相关的区域,并捕获更多的信息特征。
- 在此基础上,我们提出了一种可变形注意变压器(Deformable Attention Transforme
本文介绍了变形注意力Transformer(DAT),一种结合了可变形注意力模块和视觉Transformer的新型模型,旨在解决传统Transformer过度关注和计算成本高的问题。DAT通过数据依赖的偏移量学习,使注意力模块能聚焦于相关区域,提高信息捕获效率,同时适用于图像分类和密集预测任务。实验证明,DAT在ImageNet-1K、COCO对象检测和ADE20K语义分割等任务上优于Swin Transformer等基线,特别是在处理大对象和小对象时表现突出。
订阅专栏 解锁全文
1273

被折叠的 条评论
为什么被折叠?



