《Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization》中文校对版

文章汉化系列目录



摘要

 近年来,多模态语言处理(包括多模态对话、问答、情感分析和语音识别)受到了越来越多的关注。然而,天然的多模态数据通常存在缺陷,原因包括模态本身的不完美、缺失的条目或噪声污染。为了解决这些问题,我们提出了一种基于张量秩最小化的正则化方法。我们的方法基于这样一个观察:高维多模态时间序列数据通常在时间和模态之间存在相关性,这导致了低秩张量表示。然而,噪声或缺失值的存在打破了这些相关性,从而导致张量表示的秩增大。我们设计了一种模型来学习这些张量表示,并有效地正则化它们的秩。在多模态语言数据上的实验表明,我们的模型在不同程度的缺陷下都能取得良好的结果。

1 引言

 分析多模态语言序列涉及多个领域,包括多模态对话(Das et al., 2017;Rudnicky, 2005)、问答(Antol et al., 2015;Tapaswi et al., 2015;Das et al., 2018)、情感分析(Morency et al., 2011)和语音识别(Palaskar et al., 2018)。通常,这些多模态序列包含跨语言、视觉和声学模态的异质信息来源。例如,在指令机器人时,这些机器需要理解我们的口头指令并解读我们的非语言行为,同时将这些输入与它们的视觉传感器进行结合(Schmerling et al., 2017;Iba et al., 2005)。同样,理解人类意图需要整合人类语言、语音、面部行为和身体姿态(Mihalcea, 2012;Rossiter, 2011)。然而,虽然更多的模态有助于提高性能,但我们现在面临一个不完美数据的挑战,其中数据可能 1) 由于模态不匹配或传感器故障而不完整,或者 2) 被随机或结构化噪声污染。因此,一个重要的研究问题是如何从不完美的多模态数据中学习鲁棒的表示。
 最近,单模态和多模态学习领域的研究都探讨了张量在表示学习中的应用(Anandkumar et al., 2014)。给定来自 M M M个模态的表示 h 1 , . . . , h M h_1, ..., h_M h1,...,hM M M M阶外积张量 T = h 1 ⊗ h 2 ⊗ . . . ⊗ h M T = h_1 \otimes h_2 \otimes ... \otimes h_M T=h1h2...hM 是所有模态维度之间所有可能交互的自然表示(Liu et al., 2018)。在本文中,我们提出了一种名为时间张量融合网络(T2FN)的方法,该方法通过多模态时间序列数据构建张量表示。T2FN学习一个张量表示,用于捕捉跨时间的多模态交互。一个关键的观察是,干净的数据展现出低秩的张量,因为高维的真实世界数据通常是从低维潜在结构生成的(Lakshmanan et al., 2015)。此外,干净的多模态时间序列数据在时间和模态之间表现出相关性(Yang et al., 2017;Hidaka 和 Yu, 2010)。这导致这些过度参数化的张量具有冗余性,从而解释了它们的低秩(图 1)。另一方面,噪声或缺失值的存在打破了这些自然的相关性,导致张量表示的秩增大。因此,我们可以使用张量秩最小化来学习更准确地表示多模态数据中真实相关性和潜在结构的张量,从而缓解输入数据的不完美。基于这些见解,我们展示了如何将张量秩最小化集成作为一种简单的正则化方法,以便在不完美数据的情况下进行训练。与之前关于不完美数据的研究(Sohn et al., 2014;Srivastava 和 Salakhutdinov, 2014;Pham et al., 2019)相比,我们的模型不需要预先知道哪些条目或模态是不完美的。我们的模型结合了多模态数据的时间非线性变换的优势,并对张量结构进行了简单的正则化技术。我们在多模态视频数据上进行了实验,该数据包含了人类通过语言和非语言行为的组合表达意见。我们的实验结果验证了我们关于不完美数据会增加张量秩的直觉。最后,我们展示了我们的模型在各种程度的不完美数据下都能取得良好的结果。
在这里插入图片描述

图1:干净的多模态时间序列数据(以绿色阴影表示)在时间和模态之间表现出相关性,这导致低秩张量表示中的冗余性。另一方面,存在不完美条目(以灰色、蓝色和红色表示)时,这些相关性被破坏,导致张量秩变高。在这种情况下,我们使用张量秩正则化来学习更准确地表示多模态数据中真实相关性和潜在结构的张量。

2 相关工作

张量方法:张量表示已被用于学习单模态和多模态任务中的判别性表示。张量之所以强大,是因为它们能够捕捉时间、特征维度和多个模态之间的重要高阶交互(Kossaifi et al., 2017)。在单模态任务中,张量被应用于词性标注(Srikumar 和 Manning, 2014)、依赖解析(Lei et al., 2014)、词语分割(Pei et al., 2014)、问答(Qiu 和 Huang, 2015)以及机器翻译(Setiawan et al., 2015)。在多模态任务中,Huang et al.(2017)使用了图像和文本特征之间的张量积来进行图像描述。类似的方法也被提出用于学习跨文本、视觉和声学特征的表示,从而推断说话人的情感(Liu et al., 2018;Zadeh et al., 2017)。其他应用还包括多模态机器翻译(Delbrouck 和 Dupont, 2017)、视听语音识别(Zhang et al., 2017)以及视频语义分析(Wu et al., 2009;Gao et al., 2009)。
不完美数据:为了处理不完美数据,已有一些研究提出了用于多模态数据的生成方法(Sohn et al., 2014;Srivastava 和 Salakhutdinov, 2014)。最近,神经网络模型,如级联残差自编码器(Tran et al., 2017)、深度对抗学习(Cai et al., 2018)或基于翻译的学习(Pham et al., 2019)也被提出。然而,这些方法通常需要事先知道哪些条目或模态是不完美的。虽然也有一些研究使用低秩张量表示来处理不完美数据(Chang et al., 2017;Fan et al., 2017;Chen et al., 2017;Long et al., 2018;Nimishakavi et al., 2018),但我们的方法是首个将秩最小化与神经网络相结合,应用于多模态语言数据,从而将非线性变换的优势与张量结构的数学基础相结合。

3 提出的方法

在这一部分,我们将介绍我们的方法,用于从不完美的人类语言中学习跨语言、视觉和声学模态的表示。在§3.1中,我们讨论了张量秩的相关背景。在§3.2中,我们概述了通过名为时间张量融合网络(T2FN)的模型学习张量表示的方法。在§3.3中,我们探讨了张量秩与不完美数据之间的关系。最后,在§3.4中,我们展示了如何使用张量秩最小化来正则化我们的模型。
 我们使用小写字母 x ∈ R x \in \mathbb{R} xR 来表示标量,用粗体小写字母 x ∈ R d \mathbf{x} \in \mathbb{R}^d xRd 来表示向量,用粗体大写字母 X ∈ R d 1 × d 2 \mathbf{X} \in \mathbb{R}^{d_1 \times d_2} XRd1×d2 来表示矩阵。张量(我们用书法字母 X \mathcal{X} X 来表示)是矩阵的推广,可以表示多维数组。一个阶数为 M M M 的张量具有 M M M 个维度,记为 X ∈ R d 1 × ⋯ × d M \mathcal{X} \in \mathbb{R}^{d_1 \times \dots \times d_M} XRd1××dM。我们使用符号 ⊗ \otimes 来表示向量之间的外积。

3.1 背景:张量秩

张量的秩衡量了重构张量所需的向量数量。可以表示为向量外积的简单张量具有较低的秩,而复杂的张量则具有较高的秩。为了更精确地定义张量的秩,我们使用标准的多项式分解(Canonical Polyadic, CP)分解(Carroll 和 Chang, 1970)。
对于一个阶数为 M M M 的张量 X ∈ R d 1 × ⋯ × d M X \in \mathbb{R}^{d_1 \times \dots \times d_M} XRd1××dM,存在一个精确的分解形式:

X = ∑ i = 1 r ⨂ m = 1 M w m i (1) X = \sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^i \tag{1} X=i=1r

### 使用深度学习技术融合图像表示以进行时间序列分类 在自动驾驶领域,场景理解是一个核心任务,其中涉及多种感知任务,例如场景流估计和场景表示与定位[^1]。为了实现更高效的时间序列分类,可以采用深度学习中的特征融合方法来增强图像表示能力。 #### 特征提取与融合 深度学习模型通常通过卷积神经网络(CNN)提取空间特征,并利用循环神经网络(RNN)、长短时记忆网络(LSTM)或Transformer架构处理时间依赖关系。对于图像的时间序列数据,可以通过以下方式完成特征融合: - **多模态特征融合**:结合来自不同传感器的数据(如摄像头、激光雷达),并将其输入到共享权重的深层网络中,从而获得更加鲁棒的特征表示[^2]。 - **时空特征建模**:使用3D-CNN或者TimeDistributed CNN结构捕捉视频帧之间的动态变化模式,这种方法能够有效提升动作识别等任务的表现性能[^3]。 #### 时间序列分类的具体应用 当涉及到具体的应用场景时,比如行人行为预测或者是交通流量分析,则需要进一步优化上述提到的技术方案: - 对于短周期内的快速响应需求,轻量级网络设计显得尤为重要;而对于长期趋势判断而言,则可能更多关注全局上下文信息获取以及跨时段关联挖掘等方面的工作进展情况[^4]。 以下是基于PyTorch框架的一个简单示例代码片段展示如何构建一个用于时间序列分类的任务模型: ```python import torch.nn as nn class TimeSeriesClassifier(nn.Module): def __init__(self, input_size, hidden_size, num_classes): super(TimeSeriesClassifier, self).__init__() # 定义CNN层提取局部特征 self.cnn_layers = nn.Sequential( nn.Conv2d(1, 64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) # LSTM层捕获时间维度上的依赖关系 self.lstm_layer = nn.LSTM(input_size=input_size, hidden_size=hidden_size, batch_first=True) # 输出全连接层映射至类别数 self.fc_output = nn.Linear(hidden_size, num_classes) def forward(self, x): cnn_out = self.cnn_layers(x.unsqueeze(1)) # 增加通道维数 lstm_in = cnn_out.view(cnn_out.size(0), -1).unsqueeze(-1) # 调整形状适应LSTM输入 _, (hn, _) = self.lstm_layer(lstm_in.permute(0, 2, 1)) out = self.fc_output(hn[-1]) return out ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值