CVPR‘2024 即插即用系列! | StructViT:结构化视觉Transformer

 

Title:Learning Correlation Structures for Vision Transformers

Paper:Learning Correlation Structures for Vision Transformers

Code:Learning Correlation Structures for Vision Transformers (kimmanjin.github.io)

导读

本文提出一种新的注意力机制,称为结构自注意力(StructSA),并提出StructViT:结构视觉Transformer,StructVit可以有效提取图像中的结构化信息,在图像和视频分类任务上性能表现SOTA!

动机

让我们回到最熟悉的自注意力公式:

Q = X W_q

K = X W_k

V = X W_v

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} \right) V

可以看到标准的自注意力计算仅关注其计算结果,而忽略了其中间过程产生的丰富的结构信息

这部分信息集中在公式 Q K^T 的部分。比如取图(a)中标红的部分作为q,那么经过q K^T计算后,我们会得到一个如图(b)的特征图,图(b)也被称为Q-K关联矩阵,可以看到其中包含了丰富的结构信息。

而本文的目标就是利用b图中丰富的结构化特征信息,从而使得Vit具有更好的提取结构特征的能力。

方法

StructuralQuery-KeyAttention(SQKA)

为了将普通的查询键注意转换为结构感知的注意,结构化查询键注意(SQKA)在查询键相关Q K^T上部署卷积:

\mathbf{A}_i = \sigma \left( \text{conv} \left( \mathbf{q}_i \mathbf{K}, \mathbf{U}^{K} \right) \right) \in \mathbb{R}^{N \times D}

值得一提的是,这里的卷积\mathbf{U}^{K}具有多个维度,因此可以学习到多种的结构信息,这也在后续的实验中也被很好的证明。

Contextual Value Aggregation

在以结合卷积的方式计算完成q K^T后,按照常规自注意力的操作,就应该把它与Value值相乘累加起来。

其中u^{\mathrm{V}}是为了将刚刚多维度卷积生成的多个特征图重新投影降维,以便与Value值计算。

为了更好的实现上下文聚合,公式为进一步改进,v_{j}可以被替换为V_{j},即v_{j}周围的一块Value值,并且通过一个空间块将V_{j}投影到v_{j}的大小,从而实现Value的上下文聚合。最终的公式如下所示:

与其他卷积结构Vit的对比

也有很多Vit引入了卷积结构这些卷积多被用于投影上

作者通过可视化实验证明了StructSA能提取到更多的信息。

最明显的是图2的柠檬,可以看到某些卷积学习到了果肉的结构信息,某些卷积学习到了果皮的信息,这证明了SructSA的有效性,并且也为Vision Transformer提供了很好的可解释性

实验

本文在图像和视频数据集(ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48,  FineGym)的分类任务上进行了广泛的实验,证明了StructVit的有效性。

总结

本文引入了一种新的自注意机制,StructSA,它利用查询键相关的丰富结构模式进行视觉表征学习。StructSA利用局部关联的空间(和时间)结构,并在整个位置上聚合局部特征块。结构视觉转换器(StructViT)使用StructSA作为主要注意力模块,在图像和视频分类基准上实现了最先进的结果。

写在最后

希望看完的小伙伴多多点赞,收藏,关注,我会持续分享深度学习领域最新的论文!

### CVPR 2024 中的目标检测即插即用注意力机制研究 在计算机视觉领域,特别是目标检测方面,“即插即用”的注意力机制因其灵活性和高效性而备受关注。对于CVPR 2024会议中的相关进展,目前尚未有具体论文发布,但可以基于现有趋势预测可能的研究方向。 #### 即插即用注意力机制的特点 即插即用(Plug-and-Play)的注意力机制旨在通过模块化设计使得新开发的技术能够轻松集成到现有的模型架构中而不改变其核心结构。这种特性允许研究人员快速测试不同的改进方案并评估它们的效果[^1]。 #### 结合点云数据的应用案例 针对3D物体检测的任务,在处理来自LiDAR传感器获取的点云(Point Cloud)数据时引入了结构感知单阶段方法,该方法利用局部几何特征增强网络对复杂场景的理解能力。虽然这不是直接关于注意力机制的工作,但它展示了如何有效地将特定功能嵌入到更广泛框架内的实例。 #### 边缘关联与姿态估计 另一个值得注意的方向是在图像解析任务里探索边缘信息同物体姿态之间的关系,并提出了Correlated Parsing Model (CPM),它不仅提高了分割精度还增强了对抗样本攻击下的鲁棒性[^2]。此工作表明跨模态间建立联系有助于提升整体性能表现。 #### 实时动作识别系统的实现 最后提到的是实时动作识别系统的设计思路,该项目开源了一个完整的解决方案用于视频流上的连续帧分析,其中包含了多种先进的算法组件来捕捉时空动态变化模式[^3]。尽管重点不在于静态图片里的对象定位问题上,但是所采用的一些技术手段同样适用于其他类型的序列决策过程优化。 综上所述,预计未来一年内围绕着提高通用性和适应性的主题会有更多创新成果涌现出来,特别是在多源异构输入融合以及轻量化部署等方面取得突破的可能性较大。 ```python # 示例代码展示如何加载预训练权重文件 import torch model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True) device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu') checkpoint = torch.load("path_to_checkpoint.pth", map_location=device) model.load_state_dict(checkpoint['model']) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值