《VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text》中文校对版

原创

已于 2024-11-14 21:09:27 修改 · 3.5k 阅读

105

42 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #学习 #知识图谱

于 2024-11-11 01:00:00 首次发布

文章汉化系列目录

Advances in Neural Information Processing Systems (NeurIPS) 是全球最顶尖的人工智能和机器学习领域的会议之一，通常被视为 A* 级别的学术会议。在计算机科学、机器学习和人工智能等领域，NeurIPS 被高度认可，发表的论文通常代表了该领域的最新进展和高水平研究成果。

摘要

我们提出了一种框架，利用无卷积的Transformer架构从未标注数据中学习多模态表示。具体来说，我们的VideoAudio-Text Transformer（VATT）以原始信号作为输入，并提取出足够丰富的多模态表示，能够为各种下游任务带来显著提升。我们从头开始，通过多模态对比损失对VATT进行端到端训练，并通过视频动作识别、音频事件分类、图像分类和文本-视频检索等下游任务来评估其性能。此外，我们研究了一种模态无关的单一骨干Transformer，通过在三种模态之间共享权重来实现。结果表明，无卷积的VATT在下游任务中优于基于ConvNet的最新架构。尤其是，VATT的视觉Transformer在Kinetics-400数据集上实现了82.1%的top-1准确率，在Kinetics-600上达到83.6%，在Kinetics-700上达到72.7%，在Moments in Time上达到41.1%，这些都是新的记录，且无需有监督的预训练。转移至图像分类任务时，VATT在ImageNet上取得了78.7%的top-1准确率，相较于同样Transformer从零开始训练的64.7%，展示了模型的广泛适用性，尽管视频与图像之间存在域差异。VATT的音频Transformer也在基于波形的音频事件识别任务中创造了新纪录，在AudioSet上达到了39.4%的mAP，且无需任何有监督的预训练。VATT的源代码已公开。

1 引言

卷积神经网络（CNNs）[53, 51]在各种计算机视觉任务中取得了显著成功。卷积所引入的归纳偏差，尤其是平移不变性和局部性，已被证明对视觉数据非常有效。然而，与此同时，自然语言处理（NLP）领域的模型正逐渐从具有较强归纳偏差的模型（如循环神经网络 [43, 7] 和 CNNs [104, 32]）转向基于自注意力机制的更通用架构。尤其是，Transformer [88] 已成为 NLP 任务的默认模型架构 [23, 70, 71, 10]。在大规模文本语料上对 Transformer 进行预训练并通过微调，使其在各种下游任务中实现了最先进的效果。鉴于注意力机制在 NLP 中的成功，已有大量研究探索其在计算机视觉中的潜力。早期的研究主要集中在结合卷积和注意力模块的混合模型 [89, 94, 36, 105]。近期的研究表明，专门设计的无卷积、全注意力模型在图像识别任务中的表现可与 CNNs 媲美 [106, 44, 73]。最近，[25] 在 ImageNet [22] 等多个图像识别任务中，利用预训练的 Transformer 取得了令人印象深刻的表现，几乎无需更改模型架构。其工作传达了一个有力的信息：“大规模（监督）训练优于归纳偏差（在图像分类中）。”这一结论随后被扩展至视频识别任务 [9, 5]。

然而，大规模监督训练 Transformer 本质上存在两个主要问题。首先，这种方法排除了“大视觉数据”中的更大部分，即大量未标注、未结构化的视觉数据。因此，监督训练策略可能会生成有偏差的系统，需更多标注数据来纠正其偏差。其次，这一策略从根本上限制了 Transformer 在计算机视觉中的应用范围，因为为训练数百万参数、选择超参数以及验证期望的泛化性能而收集足够的标注图像或视频，成本高昂且耗时。因此，本研究提出了另一个紧迫的问题，即如何使 Transformer 能够直接利用大规模、未标注的视觉数据？为了解答这一问题，我们从 NLP 中汲取灵感。BERT [23] 和 GPT [70, 71, 10] 使用掩码语言模型作为预训练任务。自然语言本身为 Transformer 提供了有机的监督，因为它们将词语、短语和句子按顺序置于上下文中，赋予其语义和句法。而对于视觉数据而言，最自然的监督可能来自多模态视频。多模态视频在数字世界中大量存在，它们的时间、跨模态关系提供的监督无需人工标注。大规模的多模态视频有可能为 Transformer 提供建模视觉世界所需的内在先验，而非预定义的归纳偏差。

为此，我们研究了三种 Transformer [88] 的自监督多模态预训练，它们分别以互联网视频的原始 RGB 帧、音频波形和语音音频的文本转录为输入。我们称这些视频、音频、文本的 Transformer 为 VATT。图1展示了其架构。VATT 完全借鉴了 BERT [23] 和 ViT [25] 的架构，除了为每种模态分别保留的标记化和线性投影层外。该设计与 ViT 的理念一致，即尽量对架构进行最小化修改，以便所学习的模型权重可以迁移到不同的框架和任务。此外，自监督的多模态学习策略也呼应了 BERT 和 GPT 的精神，即预训练几乎不需要人为精心设计的标签。
我们在多种下游任务上评估了预训练的Transformer，包括图像分类、视频动作识别、音频事件分类和零样本文本-视频检索。在ImageNet [22]上微调视觉模态Transformer获得了78.7%的top-1准确率，与ViT达到的79.9%相当。这个结果尤为引人注目，考虑到视频与图像之间的领域差异，且ViT是使用一个大规模、人工精心构建的图像数据集进行预训练的。此外，我们在Kinetics-400 [14]、Kinetics-600 [15]、Moments in Time [61]和AudioSet [33]上取得了新的记录，且无需监督预训练。我们的VATT结果，以及其他在NLP任务 [23, 10]、图像识别 [25]、语义分割 [108]、点云分类 [107]和动作识别 [9]的结果，表明Transformer是一种适用于不同类型数据的通用架构。

为了进一步推进，我们对VATT中的Transformer提出了一个看似苛刻的约束：在视频、音频和文本模态之间共享权重。其目的是测试是否存在一个可以处理所有模态的通用模型——当然，每种模态仍然保留各自的标记化和线性投影层。初步结果令人鼓舞，这种模态无关的Transformer表现与三个稍小尺寸的模态特定模型相当。最后，本文的另一项贡献是提出了DropToken，这是一种简单而有效的技术，通过随机丢弃每个输入序列中的部分视频和音频标记，来降低训练复杂度，且对最终Transformer的性能仅有微小影响。DropToken允许高分辨率输入并利用其丰富性，这对于Transformer尤为重要，因为其计算复杂度与输入标记数量呈二次方关系。

2 相关工作

2.1 Vision中的Transformer

Transformer最初为NLP任务而设计 [88]，其多头注意力机制在建模单词的长时相关性方面显示出其有效性。已有一些尝试将Transformer用于视觉任务，例如图像超分辨率 [99]、目标检测 [11]和多模态视频理解 [84, 19, 57]。然而，这些方法仍依赖于CNN提取的特征。最近，[25]提出了一组无卷积的视觉Transformer，能够直接处理原始图像，并取得了与CNNs相媲美的性能。[86]通过使用更强的数据增强和知识蒸馏，提高了[25]的训练数据效率。自此，纯Transformer设计被应用于各种视觉任务，包括语义分割 [108]、点云分类 [107]和动作识别 [9, 78, 5]。据我们所知，VATT是第一个在视频、音频和文本的原始多模态输入上应用的Transformer模型。

2.2 自监督学习

单一视觉模态。早期的自监督视觉表示学习通常通过手动指定的预任务从未标注图像中学习，如自动编码 [64, 102, 103]、补丁位置预测 [24]、拼图解题 [63]和图像旋转预测 [35]。[95]提出了一种新的实例判别目标。最近，对比学习 [40, 17, 100, 37, 41, 85]的趋势将数据增强和实例判别相结合，通过保持图像及其增强视图的表示之间的相对一致性来实现。聚类也可以作为有效的补充 [12]。最近，[18]使用ViT [25]进行对比学习并取得了显著效果。对于视频领域，自然可以利用时间信号作为预任务，例如预测未来帧 [82]、运动和外观统计 [90]、速度 [8, 91]和编码 [56, 38, 39]，以及对帧或视频片段进行排序 [54, 97, 45, 31]。最近，[68]通过一种时间采样策略和时间一致的空间增强，将对比学习应用于视频。

多模态视频。视频是多模态数据的天然来源。多模态自监督学习可以通过预测视频与音频流是否具有对应关系 [3, 4, 62, 50]、跨模态聚类 [2]和动态损失 [67]来实现。最近，[1]使用对比损失从视频、音频和文本中学习；[74]则学习从窄视角预测跨越更长时间上下文的广视角。VATT作为首个将无卷积Transformer和多模态对比学习相结合的工作，充分利用了二者的优势。

3 方法

在本节中，我们介绍了无卷积的VATT架构，并详细说明了从零开始训练VATT的自监督多模态目标。图1展示了该架构的概览。我们将每种模态输入到一个标记化层中，在此将原始输入投影到一个嵌入向量，随后传入Transformer。该架构有两种主要设置：1）骨干Transformer是独立的，并为每种模态配置了特定的权重；2）Transformer共享权重，即使用单一骨干Transformer来处理所有模态。在任一设置下，骨干模型都会提取模态特定的表示，随后将这些表示映射到公共空间，通过对比损失相互比较。接下来我们将详细介绍各个模块。

在这里插入图片描述

图1：VATT架构概览及其自监督多模态学习策略。VATT将每种模态线性投影到一个特征向量中，并将其输入到Transformer编码器。我们定义了一个语义层次的通用空间，以适应不同模态的粒度，并使用噪声对比估计（NCE）来训练模型。

3.1 标记化与位置编码

VATT直接处理原始信号。视觉模态的输入由视频帧的3通道RGB像素组成，音频输入是空气密度振幅（波形），文本输入则是一个单词序列。我们首先定义一个模态特定的标记化层，接受原始信号作为输入并返回一系列向量，供Transformer使用。此外，每种模态都有自己的位置编码，用以将标记的顺序注入到Transformer中 [88]。

我们将大小为 $\times H \times W$ 的视频片段划分为 $T/t \cdot ⌈H/h⌉ \cdot ⌈W/w⌉$ 个patch，其中每个patch包含 $\times h \times w \times 3$ 个体素。我们在每个patch的所有体素上应用线性投影，以获得一个维度为 $d$ 的向量表示。此投影由一个可学习的权重 $W_{vp} \in \mathbb{R}^{t \cdot h \cdot w \cdot 3 \times d}$ 实现。这可以看作是[25]中提出的patch机制的三维扩展。

为了对这些patch的位置进行编码，我们定义一个特定维度的可学习嵌入序列，如下所示：
$e_{i,j,k} = e_{Temporal_i} + e_{Horizontal_j} + e_{Vertical_k},$
其中 $E_{Temporal} \in \mathbb{R}^{⌈T/t⌉ \times d}$ ， $E_{Horizontal} \in \mathbb{R}^{⌈H/h⌉ \times d}$ ， $E_{Vertical} \in \mathbb{R}^{⌈W/w⌉ \times d}$ 。在此， $e_i$