具有可变形注意力的Vision Transformer

Vision Transformer堆叠多个Transformer块来处理不重叠的图像(即视觉标记)序列,从而形成用于图像分类的无卷积模型。与CNN模型相比,Transformer模型具有更大的感受野,并且擅长对远程依赖关系进行建模,事实证明在大量训练数据和模型参数的情况下可以实现优异的性能。

视觉识别中的过多注意力是一把双刃剑,每个查询补丁需要参与的键数量过多会导致计算成本高、收敛速度慢,并且增加过度拟合的风险。

目前最大的难题:避免过多的注意力计算,Swin Transformer采用基于窗口的局部注意力来限制局部窗口内的注意力,而Pyramid Vision Transformer (PVT) 对键和值特征图进行下采样以节省计算量。

理想情况下,人们期望给定查询的候选键/值集是灵活的,并且能够适应每个单独的输入,从而可以缓解手工制作的稀疏注意力模式中的问题。

学习卷积核(卷积滤波器)的可变形感受野已经被证明可以有效地在数据依赖的基础上选择性地关注更多信息区域。

数据依赖是指数据之间的一种约束关系,即某些数据的取值依赖于其他数据的取值。

数据依赖分为函数依赖和多值依赖两种类型。

可变形偏移量的引入,使得开销是补丁数量的二次方。Transformer的变形机制要么在检测头中采用,要么用作预处理层,为后续主干网络采样补丁。

可变形注意力Transformer

可变形自注意力模块配备强大的金字塔主干用于图像分类和各种密集预测任务

具体来说,对于每个注意力模块,参考点首先生成为统一网格,这些网格在输入数据中是相同的。然后,偏移网络将查询特征作为输入,并为所有参考点生成相应的偏移。通过这种方式,候选键/值向重要区域转移,从而以更高的灵活性和效率增强原始自注意力模块,以捕获更多信息特征。

自 ViT引入以来,改进专注于 学习密集预测任务的多尺度特征和高效的注意力机制 

高效的注意力机制包括窗口注意力、全局令牌、焦点注意力和动态令牌大小。

基于卷积的方法被引入Vision Transformer模型中,现有的研究重点是通过卷积运算补充 Transformer 模型以引入额外的归纳偏差。CvT在标记化过程中采用卷积,并利用步幅卷积来降低自注意力的计算复杂度。

在深度学习中,“归纳偏置”(inductive bias)是指在模型设计和学习过程中对可能解释

可变形注意力机制的Transformer是一种能够在建模相关特征时灵活适应数据的注意力机制。它通过对注意力权重进行变形,使得模型能够更好地捕捉到不同特征之间的关系。引用提到现有的分层Vision Transformer,如PVT和Swin Transformer,试图解决过度关注或感受野增长过慢的问题。而可变形注意力机制的Transformer则通过引入可变形的机制,可以在建模大物体等任务中具有更好的潜力。引用中提到了一种简单有效的可变形的自注意力模块,并在此模块上构造了一个强大的Pyramid Backbone,即可变形注意力Transformer(Deformable Attention Transformer, DAT)。这种模型可以应用于图像分类和各种密集的预测任务。引用则回顾了最近的Vision Transformer中的注意力机制,其中提到了M头自注意力(MHSA)块的表示方式。综上所述,可变形注意力机制的Transformer是一种应用了可变形机制的注意力机制,用于在图像分类和密集预测任务中灵活地建模相关特征。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [清华提出DAT:具有可变形注意力的视觉Transformer](https://blog.youkuaiyun.com/amusi1994/article/details/122335513)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值