图文检索(3):On the Integration of Self-Attention and Convolution


发布时间(2022 CVPR)


标题:关于自注意力机制与卷积的整合
1)具体怎么实现
2)计算复杂度问题
3)三个类似的变体(Patchwise、Swin-Transformer、ViT)

摘要

卷积和自注意力是表示学习的两种强大技术,它们通常被认为是两种截然不同的方法
在本文中,我们表明它们之间存在着强烈的潜在关系,因为这两个范式的大部分计算实际上是通过相同的操作完成的。
具体来说,我们首先证明,核大小为 k×k 的传统卷积可以分解为 k² 个单独的 1×1 卷积,然后进行移位和求和运算。
然后,我们将自注意力模块中 query、key 和 value 的投影解释为多个 1×1 卷积,然后计算注意力权重并聚合值。
因此,两个模块的第一阶段都包含类似的操作。更重要的是,与第二阶段相比,第一阶段贡献了显着的计算复杂度(通道大小的平方)。
这一观察自然导致了这两个看似不同的范式的优雅融合,即混合模型,既享有自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力相比具有最小的计算开销。
大量实验表明,我们的模型在图像识别和下游任务上取得了比竞争基线持续改进的结果。代码和预训练模型将在 https://github.com/LeapLabTHU/ACmix 和 https://gitee.com/mindspore/models 上发布。

3 重新审视卷积和自注意力

卷积和自注意力以其当前形式广为人知。为了更好地捕捉这两个模块之间的关系,我们从新颖的视角重新审视它们,将它们的操作分解为不同的阶段

3.1 卷积

卷积是现代卷积网络最重要的部分之一。我们首先回顾一下标准的卷积运算,并从不同的角度重新表述它。如图 2(a) 所示。为简单起见,我们假设卷积的步长为 1。

理解卷积:
1)input 特征是三维张量:输入通道、H、W
2)outpu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值