论文笔记——rethinking the self attention in vision transformer

优化注意力机制：稀疏注意力与相对位置关注

原创已于 2023-02-17 09:59:40 修改 · 178 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

于 2021-12-12 14:24:53 首次发布

论文笔记专栏收录该内容

13 篇文章

订阅专栏

本文探讨了在注意力机制中如何通过mask减少前层注意力图的计算量，提出了相对位置、绝对位置和内容为基础的三种注意力类型。通过引入mask策略，可以有效地优化模型性能并降低计算复杂度。

本文的核心思想：

1.在前层的attention map非常稀疏，可以用一个mask来减少计算量。（具体看文章如何实现mask）

2.attention可以分为三种

Relative position based attention

Absolute position based attention

Content-based attention

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Triton安

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CVPR2021 | 重新思考视觉 Transformer 中的自注意力机制

四口鲸鱼爱吃盐的博客

05-03

1462

本文对视觉 Transformer 中自注意力机制进行研究。通过分析发现其在图像（ImageNet1K）和视频（Kinetics-400）理解的推理中极为稀疏。提出用掩码机制对注意力图计算进行稀疏化处理，介绍了 6 种掩码模式生成方法。实验表明，手动设计或数据驱动的掩码优于随机掩码，且视觉 Transformer 模型在 95% 稀疏度下性能损失小于 2 点，但当前掩码模型的 FLOPs 减少存在上限，在 DeiT-base 和 TimeSFormer ST 中分别最多为 4% 和 25% 。

Synthesizer: Rethinking Self-Attention in Transformer Models

ostrich的博客

07-23

857

Synthesizer: Rethinking Self-Attention in Transformer Models 这篇论文通过替换Q×KTQ \times K^{T}Q×KTattention矩阵，发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。 SYNTHESIZER

参与评论您还未登录，请先登录后发表或查看评论

Google新作synthesizer：Rethinking Self-Attention in Transformer Models

ljp1919的专栏

07-19

1176

0. 背景机构：Google Research 作者：Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng 论文地址：https://arxiv.org/abs/2005.00743 0.1 摘要以当下基于Transformer的各种先进模型来看，使用点积自注意力（dot product self-attention）是至关重要且不可或缺的。但，事实真的如此吗，没有点积自注意力就会不香吗？点积自注意力是否真的不可替代

Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

John's Blogs

06-04

1524

论文标题：Synthesizer: Rethinking Self-Attention in Transformer Models 论文链接：https://arxiv.org/abs/2005.00743 前言：自注意力机制算是解释性比较强的模型之一，它通过直接把序列两两比较（代价是计算量变为 O(n2)，当然由于是纯矩阵运算，这个计算量相当也不是很严重），能够一步到位捕捉到全局的联系。相比之下，RNN 需要一步步递推才能捕捉到，而 CNN 则需要通过层叠来扩大感受野，这是 Self Attention

Rethinking Local Perception in Lightweight Vision Transformer阅读笔记

记录

05-07

2014

来自清华大学的团队于2023年4月份提出的一篇论文，主要介绍了一种轻量级vision transformer架构——CloFormer，用以处理移动端的图像任务。

【论文阅读笔记】Rethinking Local Perception in Lightweight Vision Transformer（重新思考轻量级视觉转换器中的局部感知）

静谧、淡雅

02-27

943

Rethinking Local Perception in Lightweight Vision Transformer（重新思考轻量级视觉转换器中的局部感知）

【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer

m0_61899108的博客

02-15

2890

论文论文题目：Rethinking and Improving Relative Position Encoding for Vision Transformer 接收：ICCV 2021 论文地址：https://arxiv.org/abs/2107.14222 项目地址：Cream/iRPE at main · microsoft/Cream · GitHub Background Transformer的核心是self-attention，它能够按顺序对tokens之间的关系进行

[深度学习论文笔记]Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

Slientsake的博客

04-30

2652

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer UCTransNet:从transformer的通道角度重新思考U-Net中的跳跃连接 Published : AAAI 2022 论文：https://arxiv.org/abs/2109.04335 代码：https://github.com/mcgregorwwww/uctransnet 摘要：

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

qq_52302919的博客

09-02

1231

近年来，卷积神经网络(CNN)在计算机视觉领域占据主导地位，这归因于其建模逼真图像的能力，从局部感知到全局感知。虽然它们已被广泛应用于各种视觉任务，但在整体视觉感知方面仍存在不足。这种全局视图对于下游任务(如对象检测和语义分割)至关重要。最近，ViT及其后续采用变压器编码器来处理图像任务，由于具有全局感受野，因此取得了与CNN相当的性能。不过,由于全局自注意力是整个序列的二次计算，因此对 transformer 的感知需要进行大量的计算。

[2106] [NIPS 2021] Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer

koukouvagia的博客

03-02

1067

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer

VIT(Vision Transformer)系列论文汇总

weixin_42841721的博客

09-02

1226

虽然transformer有比较强的全局特征提取能力，但是没有偏置(局部特征提取能力受限)，计算量大，耗时(和分辨率的平方成正比的计算复杂度)等。笔者认为，想学好transformer在CV领域的应用，并且最终能够用到自己的工作或项目当中，甚至提出新的网络结构，应该要全面地先对transformer的优缺点有充足的了解以及理解；并且全面了解其发展，以及每个时期的不同transformer为基础的网络结构的变化，改进方法，相互之间的联系。通过大量阅读相关的论文，以及代码，来建立起一个相对完整的知识体系。

Transformer综述(A Survey on Vision Transformer) 阅读学习笔记（二）-- transformer在计算机视觉领域的发展和应用

sazass的博客

03-10

7869

论文综述：文章主旨：在本文中，我们回顾了这些视觉Transformer模型，将它们分为不同的任务，并分析了它们的优缺点。我们探讨的主要类别包括主干网络、高/中级视觉、低级视觉和视频处理。我们还包括有效的Transformer方法，用于将Transformer推进基于设备的实际应用。此外，我们还简要介绍了计算机视觉中的自我注意机制，因为它是Transformer的基本组成部分。在本文的最后，我们讨论了视觉Transformer面临的挑战，并提供了几个进一步的研究方向。 A Survey on Vision

深度学习1.4-pytorch安装

诚朴勇毅

12-05

164

PyTorch 官方提供了几种安装方法，可以通过 pip 或 conda 进行安装。

深度学习与机器学习的3个关键区别

dream_it_come_in的博客

12-05

1158

在人工智能的浪潮中，“机器学习” 和 “深度学习” 是两个高频出现却常被混淆的概念。很多人误以为深度学习是机器学习的 “升级版”，但实际上二者在技术逻辑、适用场景和核心能力上存在本质区别。今天我们就从三个核心维度，拆解它们的关键差异，帮你快速理清 AI 技术的底层逻辑。

python+django/flask+vue基于深度学习的图书推荐系统

最新发布

Q_Q511008285的博客

12-10

609

随着互联网的普及和电子商务的发展，线上图书销售平台越来越多，用户在选择图书时面临海量数据的选择困难。传统的图书推荐方式，如书店的畅销书榜单、图书馆的分类推荐等，已经难以满足用户个性化、精准化的阅读需求。因此，开发一个基于django/flask和深度学习的图书推荐系统显得尤为重要。

【风电功率预测服务】如何让风电场 nRMSE 再降 1%？——基于多源气象 + 深度学习的实战方案

专注AI大模型,软件混淆,授权

12-09

135

风电功率预测精度提升1%可带来显著经济效益。针对现有预测系统瓶颈，提出"多源气象+深度学习"的残差修正方案：通过融合多模式气象数据和SCADA信息，采用STL/VMD分解将误差拆分为多尺度分量，分别用Informer处理长期天气趋势、CNN-BiLSTM处理短期波动。实践表明，该方法可使200MW风电场nRMSE降低1-1.5个百分点，年节省考核费用达数十万元。该方案可作为预测服务提供，在不推翻现有系统基础上实现精度突破。

【农作物谷物识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法

子午的博客

12-05

870

农作物谷物识别系统，基于TensorFlow搭建卷积神经网络算法，通过对11种常见的谷物图片数据集（‘大米’, ‘小米’, ‘燕麦’, ‘玉米渣’, ‘红豆’, ‘绿豆’, ‘花生仁’, ‘荞麦’, ‘黄豆’, ‘黑米’, ‘黑豆’）进行训练，最后得到一个识别精度较高的模型，然后搭建Web可视化操作平台。技术栈项目前端使用Html、CSS、BootStrap搭建界面。后端基于Django处理逻辑请求基于Ajax实现前后端数据通信选题背景与意义。

卷积神经网络（CNN）详细介绍及其原理详解（2）

renjt01的博客

12-05

166

卷积神经网络（CNN）详细介绍及其原理详解（2）四、池化层五、全连接层六、输出层 #人工智能#具身智能#VLA#大模型#AI#LLM#Transformer 架构#AI技术前沿#Agent大模型#工信部证书#人工智能证书#职业证书

基于协同过滤和深度学习的视频推荐系统设计与实现

电脑管家

12-07

1084

本文介绍了一个融合协同过滤和深度学习技术的视频推荐系统。系统采用分层架构，包含数据预处理、模型层、推荐引擎和服务层。核心算法实现包括：1)基于SVD矩阵分解的协同过滤，使用Surprise库实现；2)神经网络协同过滤模型，通过Embedding层学习用户和视频的隐向量表示。系统采用加权融合策略(CF占40%，深度学习占60%)结合两种算法结果，并引入分类多样性机制优化推荐效果。技术栈选用Python生态工具链，包括NumPy/Pandas、Scikit-learn、TensorFlow和Flask等。该系统

vision transformer 用于语义分割

09-03

Vision Transformer被用于语义分割是通过结合SETR（Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers）方法来实现的。SETR是基于Transformer的语义分割模型，它采用了Vision Transformer来对图像进行编码和特征提取，然后使用Transformer的解码器来生成语义分割结果。在Vision Transformer中，图像被分割成固定大小的图块，每个图块被表示为一个向量序列。通过将图块的向量序列输入到Transformer的编码器中，Vision Transformer能够捕捉到图像中的全局和局部的特征信息。使用Transformer的解码器来生成语义分割结果的过程是，在编码器输出的基础上，通过自注意力机制（Self-Attention）和多头自注意力机制（Multi-Head Self-Attention）对特征进行融合和调整，然后将调整后的特征映射到语义分割结果的空间中。这样，Vision Transformer可以将图像的不同区域和像素之间的语义关系进行建模，从而实现语义分割的目标。总结起来，Vision Transformer用于语义分割的过程是通过将图像分块并使用编码器提取特征，然后使用Transformer的解码器对特征进行调整和融合，最后生成语义分割结果。这种方法结合了Transformer在序列建模方面的优势和Vision Transformer在图像编码方面的优势，能够在语义分割任务中取得较好的效果。123 #### 引用[.reference_title] - *1* *2* *3* [语义分割系列26-VIT+SETR——Transformer结构如何在语义分割中大放异彩](https://blog.youkuaiyun.com/yumaomi/article/details/125676811)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]