transformer一统天下？depth-wise conv有话要说

原创

于 2022-07-20 22:07:03 发布 · 1.4k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

本文是对《ON THE CONNECTION BETWEEN LOCAL ATTENTION AND DYNAMIC DEPTH-WISE CONVOLUTION》的分析，作者在cnn领域找到了和local attention模块相似的机制，以此构建出了可以和swin　transformer分庭抗礼的CNN架构

局部自注意力机制研究

作者提出局部自注意力网络如swin transforme和深度可分离卷积及其动态变体在稀疏连接这一思路上有相似之处，他们的主要区别在于以下两点：

参数共享方面：深度可分离卷积的参数共享在空间层面，而局部注意力的参数共享在通道层面；
动态权重的计算方式：局部注意力中的计算方式是基于局部窗口中的点对位置的点积；而动态卷积中的是基于中心表征的线性映射或者全局池化的表征。

location attention

对于局部自注意力机制，作者主要从 网络正则化策略包括稀疏连接和参数共享以及动态权重预测三个方面来研究。首先假定局部窗口的大小为 $N_k$ ，即计算局部注意力的序列为 $x_{i1},x_{i2},{x_{iN_k}}]$ ,给出局部自注意力机制的计算公式如下。
$\bold{y}_i=\sum^{N_k}_{j=1}a_{ij}\bold{x}_{ij}\tag{1}\\ a_{ij}=\frac{exp(\frac{\bold{Q}_i\bold{K}^{T}_{ij}}{D})}{Z_i},Z_s=\sum_{j=1}^{N_k}exp(\frac{\bold{Q}_i\bold{K}^{T}_{ij}}{D})$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。