CVPR‘2024 即插即用系列! | StructViT：结构化视觉Transformer

republic~

已于 2024-06-19 18:00:53 修改

阅读量3.6k

点赞数 32

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能 python 计算机视觉图像处理分类

于 2024-06-19 17:37:42 首次发布

本文链接：https://blog.youkuaiyun.com/aredd/article/details/139805986

Title：Learning Correlation Structures for Vision Transformers

Paper：Learning Correlation Structures for Vision Transformers

Code：Learning Correlation Structures for Vision Transformers (kimmanjin.github.io)

导读

本文提出一种新的注意力机制，称为结构自注意力（StructSA），并提出StructViT：结构视觉Transformer，StructVit可以有效提取图像中的结构化信息，在图像和视频分类任务上性能表现SOTA！

动机

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

republic~

关注关注

32
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CBAM等 即插即用系列 计算机视觉

IlgCrystal的博客

09-17

276

最后，CBAM模块将CAM和SAM模块串联起来，实现对输入特征图的通道和空间注意力加权。CBAM模块能够自动学习图像中的关键特征，并对这些特征进行加权，从而提升模型的性能。在实际应用中，你可以根据具体任务和需求选择不同的即插即用模块，并将其嵌入到现有的深度学习模型中，以实现更好的视觉分析效果。通过使用CBAM模块，我们可以提高模型对图像中重要特征的关注程度，从而提升模型在图像分类任务中的性能。在计算机视觉任务中，我们可以将CBAM模块嵌入到已有的深度学习模型中，以提升其性能。

CVPR和其他2024顶会论文阅读（资源整理【1】）

最新发布

cnjs1994的博客

12-05

1563

总结了一些今年视觉方向的顶会论文，后续会继续完善！

参与评论您还未登录，请先登录后发表或查看评论

盘点13种即插即用的涨点模块，含注意力机制、卷积变体、Transformer变体

学姐带你玩AI的博客

11-06

4328

各种注意力机制被研究用以提高不同计算机视觉任务的性能。然而，之前的方法忽略了保留通道和空间两个方面的信息以增强跨维度交互的重要性。因此，论文提出一种全局注意力机制，通过通道和空间双注意力减少信息损失，增强全局特征交互,从而提升视觉任务的性能。

CVPR2023 即插即用系列 | 一种高效轻量的自注意力机制助力图像恢复网络问鼎SOTA！

专注计算机视觉全栈知识分享

03-19

5812

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！同时欢迎添加小编微信: cv_huber，备注优快云，加入官方学术|技术|招聘交流群，一起探讨更多有趣的话题！

涨点神器：即插即用特征融合模块！超低参数，性能依旧SOTA

学姐带你玩AI的博客

05-14

3064

在写论文时，一些通用性模块可以在不同的网络结构中重复使用，这，帮助我们。比如在视觉任务中，可以无缝集成到现有网络中，以灵活、简单的方式。这类模块通过专注于数据的关键点和模式，帮助模型更有效地学习特征，从而。以南航提出的AFF模块、港大等提出的即插即用轻量级模块AdaptFormer为例：AFF模块：一种即插即用的新注意力特征融合机制AFF，仅使用了35.1M的参数量就能达到性能优于SKNet、SENet等方法的效果。

CVPR 2024 即插即用！ CA：新注意力机制，助力分类检测分割涨点！

2401_83947398的博客

04-28

4410

与Non-local/self-attention的方法不同，CA方法考虑了一种更有效的方法来捕获位置信息和通道关系，以增强Mobile Network的特征表示。这2种转换也允许注意力模块捕捉到沿着一个空间方向的长期依赖关系，并保存沿着另一个空间方向的精确位置信息，这有助于网络更准确地定位感兴趣的目标。然而，它只考虑通过建模通道关系来重新衡量每个通道的重要性，而忽略了位置信息，但是位置信息对于生成空间选择性attention maps是很重要的。是2个线性变换，可以通过学习来捕捉每个通道的重要性。

VIT中提取图像分类特征的详细步骤

热门推荐

weixin_42089699的博客

03-04

1万+

图1. VIT结构图 VIT是第一篇纯视觉transformer,被当成了许多网络的backbone。现在自己梳理一下VIT怎么从一张图像中提取特征，最后用于分类的过程。（自己的理解，如有不对，欢迎指正）处理流程：第一步：输入一张尺寸为h*w*c的图像；第二步：将图像分成p*p*c的小块，那么一共可以获得n个图像块【n=（h*w）/(p*p)】，同时添加一个可学习的类别块，则总共有（n+1）个块待处理，这个类别块将用于与所有的图像小块进行交互，最终从类别块中学习到用于分类的特征；第三步..

VIT实战总结：非常简单的VIT入门教程，一定不要错过

AI浩

02-21

8713

文章目录摘要项目结构计算mean和std生成数据集数据增强Cutout和Mixup导入项目使用的库设置全局参数图像预处理与增强读取数据设置模型定义训练和验证函数测试摘要本例提取了植物幼苗数据集中的部分数据做数据集，数据集共有12种类别，演示如何使用pytorch版本的VIT图像分类模型实现分类任务。通过本文你和学到： 1、如何构建VIT模型？ 2、如何生成数据集？ 3、如何使用Cutout数据增强？ 4、如何使用Mixup数据增强。 5、如何实现训练和验证。 6、如何使用余弦退火调整学习率？ 7、预测

ViT（Visual Transformer）最通俗易懂的讲解（有代码）

2301_77653781的博客

09-19

1万+

深入浅出，通俗易懂理解ViT(Vision Transformer)网络模型和代码。本文详细介绍了Google在ICLR上发布的VIT模型，它是首个在计算机视觉领域超越CNN和RNN的Transformer模型。文章重点阐述了VIT的结构，包括图像特征嵌入、Transformer编码器（含多头注意力机制）、MLP分类模块，以及模型的亮点和整体架构。

InteractDiffusion

whaosoft143ai的博客

05-02

306

并使用富含语义的token来将其表示为HOI三元组〈主体，动作，客体〉，这种形式提高了模型对于复杂交互的表示能力。但是目前的方法对于生成图像中对象之间的交互关系控制的并不是很好，本文介绍一篇来自南洋理工大学和马来亚大学合作完成的论文。为了对模型的HOI鲁棒性进行评估，作者还设置了两类HOI Score，即对默认对象和已知对象进行检测，其中默认设置更具挑战性，因为它需要区分不相关的图像。，该信息由三元组标签（人、动作、物体）和相应的边界框组成，可以灵活的嵌入到各种扩散模型中生成复杂的交互图像。whaosoft

CVPR 2024 即插即用！ CA：新注意力机制，助力分类检测分割涨点！(1)

erthre的博客

05-05

1496

为了更加清晰的描述CA注意力，这里先对SE block进行讨论。

CVPR 2024 涨点！RMem: 用更少的信息，理解更难/更长的视频

阿木寺的博客

06-17

456

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信：CVer5555，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！作者：庞子奇https://zhuanlan.zhihu.com/p/703340384...

RT-DETR算法优化改进:block优化 | PKIBlock多尺度卷积核，优势无需膨胀，即插即用小目标涨点 | CVPR2024 PKINet 遥感图像目标检测

03-23

672

无需膨胀即可提取不同感受野中的多尺度纹理特征。

YOLOV8改进：CVPR 2023 | SCConv: 即插即用的空间和通道重建卷积

2201_76125261的博客

10-05

359

1.该文章属于YOLOV5/YOLOV7/YOLOV8改进专栏，包含大量的改进方式，主要以2023年的最新文章和2022年的文章提出改进方式。2.提供更加详细的改进方法，如将注意力机制添加到网络的不同位置，便于做实验，也可以当做论文的创新点。2.涨点效果：添加 SCConv，经过测试，有效涨点。卷积神经网络(cnn)在各种计算机视觉任务中取得了显著的性能，但这是以巨大的计算资源为代价的，部分原因是卷积层提取冗余特征。最近的作品要么压缩训练有素的大型模型，要么探索设计良好的轻量级模型。

YOLOv10涨点改进：如何魔改注意力进行二次创新，高效替换PSA | NEU-DET为案列进行展开

05-28

6295

在NEU-DET案列进行可行性验证，1）mAP50从0.683提升至0.698；2）mAP50从0.683提升至0.695;

CVPR 2022 | 即插即用！南洋理工&商汤开源SAM-DETR: 利用语义对齐匹配实现快速收敛的DETR...

阿木寺的博客

04-01

1632

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达作者：轻尘一笑 |已授权转载（源：知乎）编辑：CVerhttps://zhuanlan.zhihu.com/p/489839282导读：在CVPR 2022上，新加坡南洋理工大学和商汤研究院的科研团队提出了SAM-DETR —— 利用语义对齐匹配加速DETR检测器收敛。它仅引入一个简单的即插即用的模...

CVPR2024 | 视频插帧视觉效果新突破！上海交大提出PerVFI，视频插帧新范式

我爱计算机视觉

06-15

1256

关注公众号，发现CV技术之美分享一篇来自CVPR2024的视频插帧工作《Perception-Oriented Video Frame Interpolation via Asymmetric Blending》。该论文提出的视频插帧算法PerVFI在视觉效果上实现了新的突破。同时，论文阐述了新的视频插帧范式，有效解决现有插帧算法的痛点。论文地址：https://openaccess.thecvf...

CVPR2024：PKINet(上下文锚点注意力机制)

kuailezzf的博客

11-06

5484

PKINet采用无扩展的多尺度卷积核来提取不同尺度的目标特征并捕获局部上下文。具体来说，首先，PKINet不依赖于大核卷积或膨胀卷积来扩展感受野，而是利用无扩展的深度卷积（inception-style）来提取不同感受野之间的多尺度纹理特征。最后，这两个模块协同工作，促进了局部和全局上下文信息的自适应特征提取，从而提高了遥感目标检测的性能。为了解决上述问题，以前的方法是通过大核卷积或膨胀卷积来扩展主干网络的空间感受野。但是，前者通常会引入相当大的背景噪声，而后者可能会产生过于稀疏的特征表示。

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

Z4400840的博客

09-05

1253

ToCom作为一个即插即用的模块，能够有效地解耦训练和推理过程中的标记压缩程度。在VTAB-1k基准测试中，ToCom在DeiT-B的平均性能上比ToMe最高可提升2.0%。标记压缩通过减少冗余标记的数量（例如，修剪不重要的标记或合并相似的标记）来加快视觉变换器（ViTs）的训练和推理。然而，当这些方法应用于下游任务时，如果训练和推理阶段的压缩程度不匹配，会导致显著的性能下降，这限制了标记压缩在现成训练模型上的应用。因此提出了标记补偿器（ToCom），以解耦两个阶段之间的压缩程度。