Vision Transformer在各种视觉任务上都取得了显著的改进,但它们之间的二次相互作用显著降低了计算效率。现有的研究主要关注标记重要性以保留局部注意标记,但完全忽略了全局标记多样性。
在本文中,我们强调了多样化全局语义的重要性,并提出了一种有效的标记解耦合、合并方法,该方法可以共同考虑标记重要性和多样性进行标记修剪。
根据类标记注意力,我们将注意标记和非注意标记解耦。除了保留最具辨别力的局部标记外,我们还合并相似的非注意标记并匹配同质的注意标记以最大化标记多样性。
一种处理类标记的方法,旨在提高模型的效率和性能,通过解耦注意和非注意标记,保留最具辨别力的标记,合并相似的非注意标记,并匹配同质的注意标记来最大化标记的多样性。
最大化标记多样性:模型会尝试将那些具有相似性质的注意标记进行匹配或组合,以确保数据的多样性。这样做可以确保模型在处理数据时不会过于偏向于某些特定的标记,从而提高其泛化能力。
(a) 基于重要性的方法根据类标记注意力保留注意标记并掩盖所有不注意标记;
(b) 基于多样性的方法将相似的标记聚集成一个组,然后将来自同一组的标记组合成一个新的标记。
(c) Incorporate 方法解耦并合并 token,同时考虑 token 的重要性和多样性。
介绍
Transformer成为自然语言处理和计算机视觉社区中最流行的架构。Vision Transformer在不同的视觉任务中实现了卓越的性能并超越了标准CNN,例如图像分类、语义分割和对象检测。Transformer最显著的特点是它能够通过自注意力机制有效捕获输入图像中的块之间的长程依赖关系。然而,令牌之间的二次交互显著降低了计算效率。
令牌剪枝
令牌剪枝(Token Pruning)是指通过减少输入令牌数量,从而减少模型计算量的一种方法
现有研究主要集中于设计不同的重要性评估策略来保留注意力集中的token并剪枝不注意力集中的token.
DyViT引入了一个额外的模块来估计每个 token 的重要性,而 EViT则根据类注意力重要性得分重新组织图像 token。
受到最近ViT变体中多样性保留研究的启发,我们认为促进token多样性对于token剪枝也至关重要
虽然图像背景和低级纹理等不注意力token与分类对象没有直接关系,但它们可以增加token多样性并提高模型的表达力。
DeiT-S上基于多样性的剪枝策略,采用不同的保留率。它并不是突出token的重要性,而是直接将相似的token聚类并组合成一个,从而最大化token多样性。基于多样性的策略无法保留原始的注意力标记,因此可能会削弱模型的判别能力。
一个令人满意的剪枝方法应该同时考虑令牌的重要性和多样性,从而能够同时保留最重要的局部信息和多样化的全局信息。
提出的修剪方法
通过有效的令牌解耦和合并来合并令牌重要性和多样性。
有效地修剪token,并最大限度地保留token多样性。
- 首先根据类标记注意力将原始标记序列解耦为注意部分和不注意部分。
- 通过一种简化的密度峰值聚类算法来有效地对相似的不注意力的标记进行聚类,并将来自同一组的这些标记组合成一个新的标记。
- 与保留所有注意标记的现有方法不同,设计一种简单的匹配算法来融合同质注意标记并进一步提高计算效率。
相关工作
Vision Transformer
与卷积网络不同,Transformer具有对远程依赖性和最小归纳偏差进行建模的显著能力。
归纳偏差是指机器学习算法在学习过程中出现的不准确和不稳定的情况;
SOTA性能指的是在特定任务上,当前最佳方法或技术所达到的最高性能水平
Visual Transformer(ViT)是第一个应用Transformer架构来实现SOTA性能的工作,但它仅在大规模图像数据集上取代了深度神经网络中的标准卷积