(八十三):Vision Transformer with Deformable Attention

本文介绍了变形注意力Transformer(DAT),一种结合了可变形注意力模块和视觉Transformer的新型模型,旨在解决传统Transformer过度关注和计算成本高的问题。DAT通过数据依赖的偏移量学习,使注意力模块能聚焦于相关区域,提高信息捕获效率,同时适用于图像分类和密集预测任务。实验证明,DAT在ImageNet-1K、COCO对象检测和ADE20K语义分割等任务上优于Swin Transformer等基线,特别是在处理大对象和小对象时表现突出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:CoRR abs/2201.00520 (2022)
  • 代码:https://github.com/LeapLabTHU/DAT
  • 题目:具有变形注意力的视觉变压器
  • 主要内容:提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力模块能够专注于相关区域,并捕获更多信息特征
  • 前两个阶段主要学习局部特征

Abstract

Trnsformers最近在各种视觉任务上表现出卓越的表现。巨大的、有时甚至是全球性的接受域赋予Transformer模型比CNN模型更高的表现能力。然而,单纯扩大接受野也会引起一些问题。
一方面,在ViT中使用密集的注意力会导致内存和计算成本过高,并且特征会受到超出兴趣区域的不相关部分的影响
另一方面,在PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制建模长期关系的能力

  • 为了缓解这些问题,我们提出了一种新的可变形的自我注意模块,该模块以数据依赖的方式选择了自注意中的键和值对的位置。这种灵活的方案使自注意模块能够聚焦于相关的区域,并捕获更多的信息特征。
  • 在此基础上,我们提出了一种可变形注意变压器(Deformable Attention T
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值