4.26.2超越注意力令牌：融入令牌的重要性和多样性，实现高效的Vision Transformer

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/138221941

本文提出了一种新的方法，通过解耦和合并注意力和非注意力标记，同时考虑标记重要性和多样性，以优化VisionTransformer的计算效率和性能。作者展示了如何通过类标记注意力和高效的聚类算法来最大化标记多样性，从而提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Vision Transformer在各种视觉任务上都取得了显著的改进，但它们之间的二次相互作用显著降低了计算效率。现有的研究主要关注标记重要性以保留局部注意标记，但完全忽略了全局标记多样性。

在本文中，我们强调了多样化全局语义的重要性，并提出了一种有效的标记解耦合、合并方法，该方法可以共同考虑标记重要性和多样性进行标记修剪。

根据类标记注意力，我们将注意标记和非注意标记解耦。除了保留最具辨别力的局部标记外，我们还合并相似的非注意标记并匹配同质的注意标记以最大化标记多样性。

一种处理类标记的方法，旨在提高模型的效率和性能，通过解耦注意和非注意标记，保留最具辨别力的标记，合并相似的非注意标记，并匹配同质的注意标记来最大化标记的多样性。

最大化标记多样性：模型会尝试将那些具有相似性质的注意标记进行匹配或组合，以确保数据的多样性。这样做可以确保模型在处理数据时不会过于偏向于某些特定的标记，从而提高其泛化能力。

(a) 基于重要性的方法根据类标记注意力保留注意标记并掩盖所有不注意标记；

(b) 基于多样性的方法将相似的标记聚集成一个组，然后将来自同一组的标记组合成一个新的标记。

介绍

Transformer成为自然语言处理和计算机视觉社区中最流行的架构。Vision Transformer在不同的视觉任务中实现了卓越的性能并超越了标准CNN，例如图像分类、语义分割和对象检测。Transformer最显著的特点是它能够通过自注意力机制有效捕获输入图像中的块之间的长程依赖关系。然而，令牌之间的二次交互显著降低了计算效率。