文章汉化系列目录
文章目录
摘要
近年来,多模态语言处理(包括多模态对话、问答、情感分析和语音识别)受到了越来越多的关注。然而,天然的多模态数据通常存在缺陷,原因包括模态本身的不完美、缺失的条目或噪声污染。为了解决这些问题,我们提出了一种基于张量秩最小化的正则化方法。我们的方法基于这样一个观察:高维多模态时间序列数据通常在时间和模态之间存在相关性,这导致了低秩张量表示。然而,噪声或缺失值的存在打破了这些相关性,从而导致张量表示的秩增大。我们设计了一种模型来学习这些张量表示,并有效地正则化它们的秩。在多模态语言数据上的实验表明,我们的模型在不同程度的缺陷下都能取得良好的结果。
1 引言
分析多模态语言序列涉及多个领域,包括多模态对话(Das et al., 2017;Rudnicky, 2005)、问答(Antol et al., 2015;Tapaswi et al., 2015;Das et al., 2018)、情感分析(Morency et al., 2011)和语音识别(Palaskar et al., 2018)。通常,这些多模态序列包含跨语言、视觉和声学模态的异质信息来源。例如,在指令机器人时,这些机器需要理解我们的口头指令并解读我们的非语言行为,同时将这些输入与它们的视觉传感器进行结合(Schmerling et al., 2017;Iba et al., 2005)。同样,理解人类意图需要整合人类语言、语音、面部行为和身体姿态(Mihalcea, 2012;Rossiter, 2011)。然而,虽然更多的模态有助于提高性能,但我们现在面临一个不完美数据的挑战,其中数据可能 1) 由于模态不匹配或传感器故障而不完整,或者 2) 被随机或结构化噪声污染。因此,一个重要的研究问题是如何从不完美的多模态数据中学习鲁棒的表示。
最近,单模态和多模态学习领域的研究都探讨了张量在表示学习中的应用(Anandkumar et al., 2014)。给定来自 M M M个模态的表示 h 1 , . . . , h M h_1, ..., h_M h1,...,hM, M M M阶外积张量 T = h 1 ⊗ h 2 ⊗ . . . ⊗ h M T = h_1 \otimes h_2 \otimes ... \otimes h_M T=h1⊗h2⊗...⊗hM 是所有模态维度之间所有可能交互的自然表示(Liu et al., 2018)。在本文中,我们提出了一种名为时间张量融合网络(T2FN)的方法,该方法通过多模态时间序列数据构建张量表示。T2FN学习一个张量表示,用于捕捉跨时间的多模态交互。一个关键的观察是,干净的数据展现出低秩的张量,因为高维的真实世界数据通常是从低维潜在结构生成的(Lakshmanan et al., 2015)。此外,干净的多模态时间序列数据在时间和模态之间表现出相关性(Yang et al., 2017;Hidaka 和 Yu, 2010)。这导致这些过度参数化的张量具有冗余性,从而解释了它们的低秩(图 1)。另一方面,噪声或缺失值的存在打破了这些自然的相关性,导致张量表示的秩增大。因此,我们可以使用张量秩最小化来学习更准确地表示多模态数据中真实相关性和潜在结构的张量,从而缓解输入数据的不完美。基于这些见解,我们展示了如何将张量秩最小化集成作为一种简单的正则化方法,以便在不完美数据的情况下进行训练。与之前关于不完美数据的研究(Sohn et al., 2014;Srivastava 和 Salakhutdinov, 2014;Pham et al., 2019)相比,我们的模型不需要预先知道哪些条目或模态是不完美的。我们的模型结合了多模态数据的时间非线性变换的优势,并对张量结构进行了简单的正则化技术。我们在多模态视频数据上进行了实验,该数据包含了人类通过语言和非语言行为的组合表达意见。我们的实验结果验证了我们关于不完美数据会增加张量秩的直觉。最后,我们展示了我们的模型在各种程度的不完美数据下都能取得良好的结果。

图1:干净的多模态时间序列数据(以绿色阴影表示)在时间和模态之间表现出相关性,这导致低秩张量表示中的冗余性。另一方面,存在不完美条目(以灰色、蓝色和红色表示)时,这些相关性被破坏,导致张量秩变高。在这种情况下,我们使用张量秩正则化来学习更准确地表示多模态数据中真实相关性和潜在结构的张量。
2 相关工作
张量方法:张量表示已被用于学习单模态和多模态任务中的判别性表示。张量之所以强大,是因为它们能够捕捉时间、特征维度和多个模态之间的重要高阶交互(Kossaifi et al., 2017)。在单模态任务中,张量被应用于词性标注(Srikumar 和 Manning, 2014)、依赖解析(Lei et al., 2014)、词语分割(Pei et al., 2014)、问答(Qiu 和 Huang, 2015)以及机器翻译(Setiawan et al., 2015)。在多模态任务中,Huang et al.(2017)使用了图像和文本特征之间的张量积来进行图像描述。类似的方法也被提出用于学习跨文本、视觉和声学特征的表示,从而推断说话人的情感(Liu et al., 2018;Zadeh et al., 2017)。其他应用还包括多模态机器翻译(Delbrouck 和 Dupont, 2017)、视听语音识别(Zhang et al., 2017)以及视频语义分析(Wu et al., 2009;Gao et al., 2009)。
不完美数据:为了处理不完美数据,已有一些研究提出了用于多模态数据的生成方法(Sohn et al., 2014;Srivastava 和 Salakhutdinov, 2014)。最近,神经网络模型,如级联残差自编码器(Tran et al., 2017)、深度对抗学习(Cai et al., 2018)或基于翻译的学习(Pham et al., 2019)也被提出。然而,这些方法通常需要事先知道哪些条目或模态是不完美的。虽然也有一些研究使用低秩张量表示来处理不完美数据(Chang et al., 2017;Fan et al., 2017;Chen et al., 2017;Long et al., 2018;Nimishakavi et al., 2018),但我们的方法是首个将秩最小化与神经网络相结合,应用于多模态语言数据,从而将非线性变换的优势与张量结构的数学基础相结合。
3 提出的方法
在这一部分,我们将介绍我们的方法,用于从不完美的人类语言中学习跨语言、视觉和声学模态的表示。在§3.1中,我们讨论了张量秩的相关背景。在§3.2中,我们概述了通过名为时间张量融合网络(T2FN)的模型学习张量表示的方法。在§3.3中,我们探讨了张量秩与不完美数据之间的关系。最后,在§3.4中,我们展示了如何使用张量秩最小化来正则化我们的模型。
我们使用小写字母 x ∈ R x \in \mathbb{R} x∈R 来表示标量,用粗体小写字母 x ∈ R d \mathbf{x} \in \mathbb{R}^d x∈Rd 来表示向量,用粗体大写字母 X ∈ R d 1 × d 2 \mathbf{X} \in \mathbb{R}^{d_1 \times d_2} X∈Rd1×d2 来表示矩阵。张量(我们用书法字母 X \mathcal{X} X 来表示)是矩阵的推广,可以表示多维数组。一个阶数为 M M M 的张量具有 M M M 个维度,记为 X ∈ R d 1 × ⋯ × d M \mathcal{X} \in \mathbb{R}^{d_1 \times \dots \times d_M} X∈Rd1×⋯×dM。我们使用符号 ⊗ \otimes ⊗ 来表示向量之间的外积。
3.1 背景:张量秩
张量的秩衡量了重构张量所需的向量数量。可以表示为向量外积的简单张量具有较低的秩,而复杂的张量则具有较高的秩。为了更精确地定义张量的秩,我们使用标准的多项式分解(Canonical Polyadic, CP)分解(Carroll 和 Chang, 1970)。
对于一个阶数为 M M M 的张量 X ∈ R d 1 × ⋯ × d M X \in \mathbb{R}^{d_1 \times \dots \times d_M} X∈Rd1×⋯×dM,存在一个精确的分解形式:
X = ∑ i = 1 r ⨂ m = 1 M w m i (1) X = \sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^i \tag{1} X=i=1∑r

最低0.47元/天 解锁文章
1042

被折叠的 条评论
为什么被折叠?



