注意力机制是否比矩阵分解更好？——IS ATTENTION BETTER THAN MATRIX DECOMPOSITION?

原创

已于 2024-04-06 21:04:18 修改 · 1.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵 #线性代数 #python #计算机视觉 #深度学习

于 2023-10-04 17:22:50 首次发布

本文聚焦于设计全局上下文模块，将全局上下文问题建模为低秩完成问题，提出了Hamburger模块。该模块利用矩阵分解恢复干净的低秩信号子空间，并采用一步梯度解决反向传播问题。实验表明，Hamburger在语义分割和图像生成任务中超越自注意力机制，且计算和内存开销更低。

原文链接：https://openreview.net/pdf?id=1FvkSpWosOlhttps://openreview.net/pdf?id=1FvkSpWosOl

代码库：GitHub - Gsunshine/Enjoy-Hamburger: [ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition?[ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition? - GitHub - Gsunshine/Enjoy-Hamburger: [ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition?https://github.com/Gsunshine/Enjoy-Hamburger

0.摘要

作为现代深度学习中的重要组成部分，特别是自注意力机制，在全局相关性发现中起着至关重要的作用。然而，在建模全局上下文时，手工设计的注意力机制是否不可替代？我们有趣的发现是，自注意力并不比20年前开发的矩阵分解（MD）模型在编码长距离依赖性方面的性能和计算成本更好。我们将全局上下文问题建模为一个低秩完成问题，并展示其优化算法能够帮助设计全局信息块。本文提出了一系列汉堡包，其中我们利用优化算法来解决MD，将输入表示分解为子矩阵并重建一个低秩嵌入。当仔细处理通过MD反向传播的梯度时，具有不同MD的汉堡包可以在与流行的全局上下文模块自注意力竞争时表现出色。我们在需要学习全局上下文的视觉任务中进行了全面的实验，包括语义分割和图像生成，在性能上显著优于自注意力及其变种。代码已经提供。

1.引言

自从自注意力和Transformer（Vaswani et al.,2017）在捕捉长距离依赖性方面显示出明显优势后，注意力机制被广泛应用于计算机视觉（Wang et al.,2018; Zhang et al.,2019a）和自然语言处理（Devlin et al.,2019）中，用于全局信息挖掘。然而，在建模全局上下文时，手工设计的注意力机制是否不可替代？本文重点研究了一种设计全局上下文模块的新方法。关键思想是，如果我们将像全局上下文这样的归纳偏置形式化为目标函数，则最小化目标函数的优化算法可以构建一个计算图，即我们在网络中所需要的架构。我们通过为最具代表性的全局上下文模块自注意力开发一个对应模块来具体化这个思想。考虑到在网络中提取全局信息就像找到一个字典和相应的编码来捕捉内在关联性，我们将上下文发现建模为输入张量的低秩完成问题，并通过矩阵分解来解决。本文提出了一个全局相关性模块，即汉堡包，通过采用矩阵分解将学习到的表示分解为子矩阵，以恢复干净的低秩信号子空间。解决矩阵分解的迭代优化算法定义了中心计算图，即汉堡包的架构。我们的工作利用矩阵分解模型作为汉堡包的基础，包括向量量化（Vector Quantization，VQ）(Gray & Neuhoff,1998)，概念分解（Concept Decomposition，CD）(Dhillon & Modha,2001)和非负矩阵分解（Non-negative Matrix Factorization，NMF）(Lee & Seung,1999)。此外，我们采用截断BPTT（Back-Propagation Through Time）算法（Werbos et al.,1990）而不是直接应用于迭代优化的BPTT算法，即一步梯度，以有效地反向传播梯度。我们在全局信息被证明至关重要的基本视觉任务中，包括语义分割和图像生成，展示了汉堡包的优势。实验证明，经过优化设计的汉堡包在避免通过MD的迭代计算图反向传播的不稳定梯度时，可以与最先进的注意力模型竞争。汉堡包在PASCAL VOC数据集（Everingham et al.,2010）和PASCAL Context数据集（Mottaghi et al.,2014）上为语义分割设立了新的最先进记录，并在ImageNet（Deng et al.,2009）上的大规模图像生成中超越了现有的注意力模块。

本文的贡献如下：

我们展示了一种白盒方法来设计全局信息模块，即通过将最小化目标函数的优化算法转化成架构，其中将全局相关性建模为低秩完成问题。
我们提出了一种轻量而强大的全局上下文模块Hamburger，其复杂度为O(n)，在语义分割和图像生成等任务上超越了各种注意力模块。
我们发现将MD应用于网络中的主要障碍是其迭代优化算法中不稳定的反向梯度。作为一种实用的解决方案，我们提出的一步梯度有助于使用MD训练Hamburger。

2.方法学

2.1.预热

矩阵分解在提出的Hamburger中起着关键作用，我们首先回顾一下矩阵分解的思想。常见的观点是，矩阵分解将观察到的矩阵分解为几个子矩阵的乘积，例如奇异值分解。然而，更有启发性的观点是，通过假设生成过程，矩阵分解作为生成的逆过程，将组成复杂数据的原子分解开来。通过重建原始矩阵，矩阵分解可以恢复观察到的数据的潜在结构。假设给定的数据被排列成一个大矩阵X=[x1;···;xn]∈R^d×n，一个通用的假设是，存在一个低维子空间或多个子空间的并集隐藏在X中。也就是说，存在一个字典矩阵D=[d1;···;dr]∈R^d×r和相应的编码C=[c1;···;cn]∈R^r×n，使得X可以表示为其中，X̄ ∈ Rd×n 是输出的低秩重建矩阵，E ∈ Rd×n 是要丢弃的噪声矩阵。我们假设恢复的矩阵X̄具有低秩性质，即 rank(X̄) ≤ min(rank(D), rank(C)) ≤ r ≤ min(d, n)。通过对矩阵D、C和E假设结构，可以得到不同的矩阵分解方法 (Kolda & Bader, 2009; Udell et al., 2016)。矩阵分解通常被建模为具有各种约束的目标函数，并通过优化算法进行求解，经典应用包括图像去噪 (Wright et al., 2009; Lu et al., 2014)、修复 (Mairal et al., 2010)和特征提取 (Zhang et al., 2012)。

2.2.提出的方法

我们专注于为无需费力手工设计的网络构建全局上下文模块。在开始讨论之前，我们简要回顾了代表性的手工设计的上下文块——自注意力机制。注意机制旨在从大量无意识的上下文中找到一组概念，以进行进一步的有意识推理 (Xu et al., 2015; Bengio, 2017; Goyal et al., 2019)。作为一个代表性的例子，自注意力机制 (Vaswani et al., 2017) 被提出用于学习机器翻译中的长程依赖关系。其中，Q、K、V ∈ R^n×d 是通过线性变换从输入中投影出来的特征。自注意力机制通过同时关注所有标记，而不是逐一处理的循环神经网络，从而提取全局信息。尽管自注意力及其变种取得了巨大的成功，但研究人员面临两个问题：一是基于自注意力进行新的全局上下文模块开发，通常需要手工设计；二是解释当前注意力模型的工作原理。本文绕过这两个问题，并找到了一种通过定义明确的白盒工具包来轻松设计全局上下文模块的方法。我们试图将人类归纳偏见（如全局上下文）形式化为一个目标函数，并使用优化算法来解决这个问题，以设计模块的架构。优化算法创建一个计算图，接受一些输入，并最终输出解决方案。我们将优化算法的计算图应用于我们上下文模块的核心部分。基于这种方法，我们需要将网络的全局信息问题建模为一个优化问题。以卷积神经网络（CNN）为例进行进一步讨论。在我们将图像输入网络后，网络输出一个张量X∈R^C×H×W。由于张量可以看作是一个HW个C维超像素的集合，我们将张量展开成一个矩阵X∈R^C×HW。当模块学习长程依赖或全局上下文时，隐藏的假设是超像素之间存在固有的相关性。为了简化起见，我们假设超像素是线性相关的，这意味着X中的每个超像素都可以表示为基向量的线性组合，而基向量的元素通常远小于HW。在理想情况下，X中隐藏的全局信息可以是低秩的。然而，由于传统CNN对于建模全局上下文的能力较差（Wang et al., 2018; Zhang et al., 2019a），学习得到的X通常会受到冗余信息或不完整性的干扰。上述分析提出了一种潜在的方法来建模全局上下文，即通过完成展开矩阵X中的低秩部分X̄，丢弃噪声部分E，使用Eq.(1)中描述的经典矩阵分解模型来同时过滤冗余和不完整性。因此，我们将学习全局上下文建模为一个低秩完成问题，并将矩阵分解作为其解决方案。根据第2.1节的概念，矩阵分解的一般目标函数为其中，L是重构损失，R1和R2是字典D和代码C的正则化项。将最小化Eq.(4)的优化算法表示为M。M是我们在全局上下文模块中使用的核心架构。为了帮助读者进一步理解这个建模过程，我们在附录G中提供了更直观的说明。在后面的章节中，我们介绍了我们的全局上下文块Hamburger，并讨论了M的详细MD模型和优化算法。最后，我们解决了通过矩阵分解进行反向传播的梯度问题。

2.2.1.Hambuger

Hamburger由一片“火腿”（矩阵分解）和两片“面包”（线性变换）组成。顾名思义，Hamburger首先通过线性变换Wl将输入Z∈R^{dz×n}映射到特征空间中，即“下面包”，然后使用矩阵分解M来解决低秩信号子空间，对应于“火腿”，最后使用另一个线性变换Wu将提取的信号转换为输出，称为“上面包”。其中，矩阵分解M用于恢复清晰的潜在结构，起到全局非线性的作用。关于M的详细架构，即分解X的优化算法，在2.2.2节中进行了讨论。图1描述了Hamburger的架构，它通过批量归一化（BN）（Ioffe＆Szegedy，2015）、跳跃连接与网络协作，并最终输出Y。

2.2.2.Hams

本节描述了“ham”的结构，即Eq.(5)中的M。如前一节所讨论的，通过将全局信息发现形式化为MD的优化问题，自然地可以将解决MD的算法组合成M。M以“下面包”的输出作为输入，并计算一个低秩重构作为其输出，分别表示为X和X̄。我们研究了两种MD模型来解决D和C并重构X̄，分别为向量量化（VQ）和非负矩阵分解（NMF），而将概念分解（CD）留给附录B。选定的MD模型仅作简要介绍，因为我们致力于阐明低秩归纳偏差和基于优化的设计方法对全局上下文模块的重要性，而不是特定的MD模型。在本文的上下文中，更倾向于将MD部分作为一个整体，即M，并重点关注Hamburger如何展现其整体上的优势。

向量量化（Vector Quantization，VQ）（Gray＆Neuhoff，1998）是一种经典的数据压缩算法，可以通过矩阵分解的形式来表述为一个优化问题：其中ei是单位基向量，ei =[0;···;1;···;0]>ith。为了最小化Eq.(8)中的目标函数，解决方案是K-means算法（Gray＆Neuhoff，1998）。然而，为了确保VQ是可微的，我们用softmax和余弦相似度替换了硬arg min和欧氏距离，得到Alg.1，其中cosine(D;X)是一个相似度矩阵，其元素满足cosine(D;X)ij =kdd>ikkxxjk，softmax是逐列应用的，并且T是温度参数。当T不等于0时，我们可以通过一个one-hot向量得到一个硬分配。如果我们对字典D和编码C施加非负约束，就得到了非负矩阵分解（Non-negative Matrix Factorization，NMF）（Lee＆Seung，1999）：为