
注意力机制
文章平均质量分 88
注意力机制从人类的视觉机制出发,从而借以优化机器学习算法。
有为少年
一步步,一点点
展开
-
ICLR 2024 - Spike-driven Transformer V2 - Meta Spiking Neural Network Architecture Inspiring the Des
具体来说,本文将 NeurIPS 2023 发表的第一版工作中的脉冲驱动的 Transformer 扩展为元架构,并探索了结构、脉冲驱动自注意力和跳跃连接对其性能的影响。原创 2024-08-16 17:28:14 · 1665 阅读 · 0 评论 -
ICLR 2024 | FasterViT: Fast Vision Transformers with Hierarchical Attention
本文提出了一种 CNN 和 ViT 的混合架构,即 FasterViT。这样的混合架构可以快速生成高质量 token,然后基于 Transformer 块来进一步处理这些 token。其重点在于结合架构组合和高效的注意力模块的设计,从而优化 ViT 模型的计算效率,提高图像的吞吐率,加强对于高分辨率图像的适应能力。原创 2024-05-17 17:22:29 · 1694 阅读 · 0 评论 -
Arxiv 2307 | Retentive Network: A Successor to Transformer for Large Language Models
本文从序列建模的角度,构建了一种类似Transformer且更加高效的结构。在语言任务上展现出了良好的效率和性能。原创 2023-07-19 19:20:08 · 2045 阅读 · 0 评论 -
CVPR 2023 | OVSeg: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
预训练的 CLIP 无法对 masked image 执行令人满意的分类,这是两阶段开放词汇分割模型的性能瓶颈。本文认为这是由于蒙面图像和 CLIP 的训练图像之间的显著域差距造成的。所以需要对 CLIP 进行微调原创 2023-07-12 17:20:00 · 1985 阅读 · 0 评论 -
Arxiv 2305 | Refocusing Is Key to Transfer Learning
本文提出的TOAST强调的是在预训练模型迁移过程中进一步强化目标任务相关的注意力信息是很重要的。Transformer 模型通常是自下而上的,即其注意力仅取决于输入,因此,它通常突出输入信号中的所有显着特征。与自底而上的注意力相反,由顶而下的注意力赋予了根据高级目标或任务调整注意力的能力,即它只关注与任务相关的特征而忽略其他特征。原创 2023-07-10 18:59:38 · 875 阅读 · 0 评论 -
CVPR 2023 | SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation
基于CLIP构建开放词汇语义分割模型。原创 2023-06-30 11:37:15 · 2873 阅读 · 0 评论 -
CVPR 2023 | Making Vision Transformers Efficient from A Token Sparsification View
CVPR 2023,基于token稀疏化的transformer高效模型。原创 2023-06-15 14:02:23 · 1894 阅读 · 0 评论 -
CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
EfficientViT,推理更快的ViT。原创 2023-05-15 17:11:23 · 14045 阅读 · 1 评论 -
CVPR 2022 | NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
这篇文章将全局全连接CRF使用Attention进行了改造,并使用了基于窗偏移的计算过程实现了更低的计算量。提出的结构被用于单目深度估计任务模型的构建中。原创 2022-09-30 17:56:26 · 4029 阅读 · 9 评论 -
ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers
设计了一种简化的线性注意力机制,并引入了卷积相对位置编码。基于这些构建了一个包含多尺度特征交互的架构。原创 2022-09-24 12:46:28 · 1570 阅读 · 0 评论 -
CVPR2022 | MPViT: Multi-Path Vision Transformer for Dense Prediction
本文重点探究Transformer中的multi-scale patch embedding和multi-path structure scheme的设计。原创 2022-09-22 12:53:12 · 2229 阅读 · 0 评论 -
CVPR 2022 Oral | MAXIM: Multi-Axis MLP for Image Processing
这是一篇在底层视觉任务上构建更有效的局部+全局交互策略的文章,再多个任务上实现了良好的效果。原创 2022-09-19 12:58:18 · 3747 阅读 · 3 评论 -
ECCV 2022 | MaxViT: Multi-Axis Vision Transformer
本文是针对Attention操作的一种改进。思路上来说之前的卷积方法中已经使用过类似的策略,但是作者们将这种思路用在Attention中,也展现出了良好的效果。提出的结构Multi-Axis Attention有效改善了原始Attention在实际应用中所欠缺的可放缩性,能够更有效的处理高分辨率特征。具体而言,就是通过完全借助局部注意力实现了局部交互和全局交互的形式(全局交互的实现思想其实值得借鉴),在有效降低计算复杂度的情况下,仍然获得了良好的表现。原创 2022-09-17 12:25:32 · 3950 阅读 · 0 评论 -
Arxiv 2209 | Switchable Self-attention Module
这篇文章设计了一种可切换式的注意力模块(题目中是self-attention,但是实际模块设计用的还是原始的通道注意力)。在本文中,实验性的发现对于不同的网络层和不同的场景中,对于注意力模块而言,选择使用合适的激励操作是更有必要的。原创 2022-09-16 19:41:14 · 1871 阅读 · 8 评论 -
ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
本文主要讨论了文本检索视频任务中的特征融合问题。提出了一种基于轻量但是有效的特征融合模块LAFF构建的跨模态双端融合架构。原创 2022-09-15 20:02:26 · 2922 阅读 · 8 评论 -
Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions
这篇文章旨在使用卷积结构设计一种更加有效的空间交互模块。作者们通过递归门控策略设计了递归门控卷积操作,从而在特征内部构建了更高阶的空间交互过程。这种结构可以作者为一种即插即用的模块来提升视觉Transformer或者卷积模型。除了构建backbone,也可以用于解码器来提升密集预测任务的性能。...原创 2022-08-19 00:31:41 · 999 阅读 · 0 评论 -
Arxiv 2206 | Global Context Vision Transformers
本文的目的主要在于改进自注意力计算的高昂计算成本。所以基于局部自注意力的形式进行了扩展,实现了一种更加高效的全局注意力形式,而免去了Swin那样的划窗操作(划窗操作需要进行padding和mask,以及划窗仅仅会覆盖不同局部区域的部分内容)或者其他更为复杂的例如token unfolding和rolling操作,甚至是对于key和value的额外计算。......原创 2022-08-18 17:05:05 · 1918 阅读 · 1 评论 -
Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers
本文旨在改进轻量视觉Transformer模型的设计。原创 2022-08-12 13:11:25 · 779 阅读 · 0 评论 -
Arxiv 2106 | Vision Transformers with Hierarchical Attention
本文重新设计了视觉Transformer中的多头自注意力(MHSA),以实现更高效的全局关系建模过程,同时又不牺牲细粒度信息。原创 2022-07-10 10:23:54 · 1167 阅读 · 0 评论 -
Vision Transformer | Arxiv 2205 - LiTv2: Fast Vision Transformers with HiLo Attention
现有的 ViT 方法,模型有效性的设计基本上都是由一些间接反映计算复杂度的指标来引导的,例如 FLOPs,然而这和直接的指标,例如模型的吞吐量等有着明显的差异。这篇文章则是尝试使用目标平台上更直接的速度评估作为模型有效性的设计原则。这样的前提下,作者们提出了一个简单有效的架构,LITv2。其主要延续了图像分高低频处理局部细节和全局结构的传统图像处理的思想。具体来说,将注意力的多个头拆分成了两组,一组用于在局部窗口中关注于更加细节的高频信息,而另一组则基于 query 与平均池化下采样后得到的低频信息主导的原创 2022-06-04 16:55:02 · 1287 阅读 · 0 评论 -
Vision Transformer | CVPR 2022 - Vision Transformer with Deformable Attention
Deformable Attention被提出来针对Attention操作引入数据依赖的稀疏注意力原创 2022-06-03 22:08:44 · 1857 阅读 · 0 评论 -
Vision Transformer | Arxiv 2112 - SIMVIT: EXPLORING A SIMPLE VISION TRANSFORMER WITH SLIDING WINDOWS
通过使用CNN中基于滑动窗口的层次结构带来的局部结构保留,以及Transformer中的自我注意力的信息聚集,这份工作弥合了CNN和变压器对于视觉数据建模的认知差距。可见这里是基于操作来将k和v对应位于划窗中的token聚集到一个独立的维度上得到大小的tensor,而q则是大小,qk计算则消去得到,qkv计算得到。实验结果......原创 2022-06-02 21:18:44 · 447 阅读 · 0 评论 -
Vision Transformer | Arxiv 2205 - TRT-ViT 面向 TensorRT 的 Vision Transformer
Arxiv 2205 -TRT-ViT: 面向 TensorRT 的 Vision Transformer原始文档:https://www.yuque.com/lart/papers/pghqxg论文:https://arxiv.org/abs/2205.09579主要内容这篇文章从Vision Transformer的实际应用的角度进行了回顾和探索。现有的Vision Transformer虽然精度很高,但是却并不像ResNet那样高效,且逐渐偏离了实际部署场景的需求。作者们认为这可能是因原创 2022-05-29 17:37:45 · 183 阅读 · 0 评论 -
Vision Transformer | AAAI 2022 - LIT: Less is More: Pay Less Attention in Vision Transformers
AAAI 2022 - LIT: Less is More: Pay Less Attention in Vision Transformers论文:https://arxiv.org/abs/2105.14217代码:https://github.com/zip-group/LIT核心内容:这篇文章注意到了分层架构中早期阶段的MSA表现更像卷积,仅仅会关注于很小的局部区域,而更深层的结构对全局的依赖性更强。因此仅仅使用更廉价的MLP来构建浅层结构,使用标准MSA构建深层结构。同时也引入了可变形卷原创 2022-05-27 10:18:36 · 1079 阅读 · 0 评论 -
Vision Transformer | Arxiv 2205 - TRT-ViT 面向 TensorRT 的 Vision Transformer
Arxiv 2205 - TRT-ViT 面向 TensorRT 的 Vision Transformer论文:https://arxiv.org/abs/2205.09579原始文档:https://www.yuque.com/lart/papers/pghqxg主要内容这篇文章从Vision Transformer的实际应用的角度进行了回顾和探索。现有的Vision Transformer虽然精度很高,但是却并不像ResNet那样高效,且逐渐偏离了实际部署场景的需求。作者们认为这可能是因原创 2022-05-22 16:08:06 · 788 阅读 · 0 评论 -
Vision Transformer | CVPR 2022 Oral - Shunted Transformer: Shunted Self-Attention
CVPR 2022 Oral | Shunted Self-Attention via Multi-Scale Token Aggregation本身可以看做是对 PVT 中对 K 和 V 下采样的操作进行多尺度化改进。对 K 和 V 分成两组,使用不同的下采样尺度,构建多尺度的头的 token 来和原始的 Q 对应的头来计算,最终结果拼接后送入输出线性层。原创 2022-05-17 09:59:52 · 764 阅读 · 0 评论 -
Vision Transformer | Arxiv 2106 - CAT: Cross Attention in Vision Transformer
Arxiv 2106 - CAT: Cross Attention in Vision Transformer论文:https://arxiv.org/abs/2106.05786代码:https://github.com/linhezheng19/CAT详细解读:https://mp.weixin.qq.com/s/VJCDAo94Uo_OtflSHRc1AQ核心动机:使用patch内部和patch之间attention简化了全局attention计算。本文仅做核心模块的粗略说明,力求对本原创 2022-05-13 19:24:25 · 607 阅读 · 0 评论 -
Vision Transformer | CVPR 2022 - Beyond Fixation: Dynamic Window Visual Transformer
CVPR 2022 - Beyond Fixation: Dynamic Window Visual Transformer论文:https://arxiv.org/abs/2203.12856代码:https://github.com/pzhren/DW-ViT动机:将多尺度和分支注意力引入window-based attention。现有窗口注意力仅使用单窗口设定,这可能会限制窗口配置对模型性能影响的上限。作者们由此引入多尺度窗口attention,并对不同尺度的窗口分支加权组合,提升多尺度表原创 2022-05-12 19:37:48 · 1130 阅读 · 0 评论 -
Vision Transformer | Arxiv 2205 - EdgeViTs: Competing Light-weight CNNs on Mobile Devices
Arxiv 2205 - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers论文:https://arxiv.org/abs/2205.03436解读:https://mp.weixin.qq.com/s/idQND1Vqxnae0eerQ_lgyA核心内容仍然遵循金字塔结构形式的Transformer范式。修改Transformer Block为提出的Local-Global原创 2022-05-12 19:33:30 · 617 阅读 · 3 评论 -
Vision Transformer | Arxiv 2203 - SepViT: Separable Vision Transformer
Arxiv 2203 - SepViT: Separable Vision Transformer论文:https://arxiv.org/abs/2203.15380解读:https://mp.weixin.qq.com/s/FxkiHYX-BKZ3-iewKNmXnw核心目的:优化Attention计算。此外,SepViT还采用了条件位置编码(CPE)。对于每个阶段,都有一个重叠的Patch合并层用于特征图降采样,然后是一系列的SepViT Block。空间分辨率将以stride=4步或原创 2022-05-12 19:25:06 · 920 阅读 · 0 评论 -
Vision Transformer之Neighborhood Attention Transformer:更像卷积的Attention
提出了一个neighborhood attention操作。顾名思义,其以query对应的位置为中心来设定局部窗口,从而提取key和value进行计算。这是一种概念上更加简单、灵活和自然的的注意力机制。原创 2022-04-29 21:35:51 · 4041 阅读 · 3 评论 -
Vision Attention之ACmix:On the Integration of Self-Attention and Convolution
On the Integration of Self-Attention and Convolution本文原始文档:https://www.yuque.com/lart/papers/nlu51g整体概览可见链接里的公众号文章,本文主要针对模型设计的细节进行解释。从摘要读文章Convolution and self-attention are two powerful techniques for representation learning, and they are usually con原创 2021-12-05 00:20:44 · 1811 阅读 · 6 评论