【论文翻译】Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

最新推荐文章于 2025-04-19 22:05:42 发布

野生胡萝卜

最新推荐文章于 2025-04-19 22:05:42 发布

阅读量3k

点赞数 8

分类专栏：时间序列聚类文章标签：大数据

本文链接：https://blog.youkuaiyun.com/weixin_44602176/article/details/108294044

版权

摘要

多元时间序列的子序列聚类是发现时态数据中重复模式的有用工具。一旦这些模式被发现，看似复杂的数据集就可以解释为仅有少量状态或集群的时间序列。例如，来自健身跟踪应用程序的原始传感器数据可以表示为选定的几个动作（即步行、坐着、跑步)的时间线。然而，发现这些模式是具有挑战性的，因为它需要同时分割和聚类时间序列。此外，解释由此产生的簇是困难的，特别是当数据是高维的。在这里，我们提出了一种新的基于模型的聚类方法，我们称之为TICC。在TICC方法中，每个集群都是由相关网络或马尔可夫随机场(MRF)定义的，它描述了该集群的典型子序列中不同观测值之间的相互依赖关系。基于这种图形表示，TICC同时分割和聚类时间序列数据。利用期望最大化(EM)算法的变形——交替最小化来解决TICC问题。我们分别通过动态规划和交替方向乘子法(ADMM)，导出了封闭形式的解以可伸缩的方式有效地求解这两个子问题。我们通过在一系列合成实验中将TICC与几个最先进的基线进行比较来验证我们的方法，然后在汽车传感器数据集上演示 TICC 如何用于学习现实世界场景中的可解释集群。

1.介绍

许多应用，从汽车[32]到金融市场[35]和可穿戴传感器[34]，产生大量的时间序列数据。在大多数情况下，这些数据是多元的，其中每个时间戳观测由来自多个实体或传感器的读数组成。这些长时间序列通常可以分解成一个状态序列，每个状态由一个简单的“模式”定义，其中状态可以重复发生多次。例如，来自健身跟踪设备的原始传感器数据可以解释为动作[38]（比如走10分钟，跑30分钟，坐一个小时，再跑45分钟）的时间序列。同样，使用汽车传感器数据，单个驾驶会话可以表示为几个关键状态的顺序时间线：转弯、加速、减速、直行、红灯停车等。这种表示可以用来发现重复的模式，了解趋势，检测异常，更广泛地说，更好地解释大型和高维数据集。

图1. 我们的TICC方法将一个时间序列分割成一系列状态，或“簇”(即a、b或c)。每个集群的特征是一个相关网络，或MRF，定义在一个大小为W的短窗口上。这个MRF控制属于该集群的段内任何窗口的（时间不变）偏相关结构。在这里，TICC学习集群MRFS和时间序列分割。

为了实现这种表示，需要同时分割和聚类时间序列。这个问题比标准时间序列分割[17,20]更困难，因为多个片段可以属于同一个集群。然而，它也比子序列聚类困难[3,43]因为每个数据点不能独立聚类（因为相邻点最好属于同一个簇）。此外，即使一个人能够同时分割和聚类数据，问题仍然是如何解释不同的集群。这些集群很少事先知道，因此最好通过数据来学习。然而，如果没有先验知识，就很难理解每个集群所指的是什么。传统的聚类方法并不特别适合于在数据中发现可解释的结构。这是因为它们通常依赖于基于距离的度量，例如动态时间扭曲[4]。这些方法侧重于匹配原始值，而不是在数据中寻找更细微的结构相似性，例如，汽车中的不同传感器在不同时间之间是如何相互关联的。在本文中，我们提出了一种新的多元时间序列聚类方法，我们称之为托普利兹逆协方差聚类(TICC)。在我们的方法中，我们将每个集群定义为一个依赖网络，在一个短时间内子序列中显示不同传感器之间的关系（图1）。例如，在一个与汽车“转弯”对应的簇中，这个被称为马尔可夫随机场(MRF)的网络可以显示通用时刻t的制动脚板如何影响 t + 1 时刻的方向盘角度。在这里，不同集群的MRF，比如“slow down”，将在这两个传感器之间有一个非常不同的依赖结构。在这些 MRFs中，一条边表示两个变量之间的偏相关[26,41,46]。重要的是要注意 MRFs表示的关系比简单的相关性强得多;偏相关是用来控制其他混杂变量的影响，因此MRF中边的存在意味着数据中两个变量之间存在直接的依赖关系。因此，MRF 提供了可解释的洞察力，以精确地描述每个集群的关键因素和关系。
在我们的TICC方法中，我们通过估计一个稀疏高斯逆协方差矩阵来学习每个簇的MRF[14,48]。逆协方差Θ,如果Θi, j = 0,那么根据定义,在Θ中元素 i 和 j 是条件独立的(给定所有其他变量的值)。因此,Θ定义了MRF依赖网络的邻接矩阵[1,45]。这个网络有多个层，在一个层内和不同层之间都有边。在这里，层的数量对应于我们定义的MRF的短子序列的窗口大小。例如，图1中对应于簇A和簇B的MRFs都有三层。该多层网络代表了属于该簇的某个段内观测的任意窗口的非时变相关结构。我们通过解决一个约束逆协方差估计问题来学习每个聚类的这种结构，我们称之为Toeplitz graphical lasso。我们所施加的约束确保所得到的多层网络具有块Toeplitz结构[16] (即l 层和l + 1层之间的任何边也存在于l + 1层和l + 2层之间)。这个Toeplitz约束保证了我们的聚类定义是非时变的，所以聚类分配不依赖于子序列的确切起始位置。相反，我们只根据时间序列当前的结构状态对这些短子序列进行聚类。
为了解决TICC问题，我们使用期望最大化(EM)方法，基于交替最小化，迭代地聚类数据，然后更新聚类参数。尽管TICC涉及解决一个高度非凸的极大似然问题，但我们的方法在实践中能够非常有效地找到(局部)最优解。在将数据分配到聚类时，我们还有一个时间一致性的目标，即鼓励时间序列中相邻数据属于同一聚类。然而，这产生了一个组合优化问题。我们使用动态规划开发了一个可扩展的解决方案，它允许我们有效地学习最优分配，只需O(KT)时间来将T点分配到K个簇。然后，为了求解聚类参数，我们开发了一个求解Toeplitz graphical lasso问题的算法。由于从数据中学习这个图形结构是一个计算开销很大的半定规划问题[6,22]，因此我们开发了一种专门的基于交替方向乘子[5]方法的消息传递算法。在Toeplitz图形拉索算法中，我们推导了每个ADMM子问题的封闭形式更新，以显著加快求解时间。
然后，我们实现了我们的TICC方法，并将其应用于真实和合成数据集。我们从几个已知的地面实况聚类的综合例子开始评估性能。我们将 TICC 与几种最先进的时间序列聚类方法进行了比较，在聚类分配精度方面至少比它们都高出41%。我们还对每种方法精确的集群恢复所需的数据量进行了量化，我们发现，要实现类似的性能，TICC需要的观察量比第二优的方法少三倍。此外，我们发现我们的方法能够准确重建底层的MRF依赖网络，在我们的实验中网络恢复得分F1是0.79-0.90。然后我们分析一个汽车传感器数据集，以了解如何使用TICC从现实数据中学习可解释的见解。应用我们的方法，我们发现汽车数据集有五个真实的聚类，每个聚类对应汽车经常处于的“状态”。然后，我们通过检查驾驶会话的纬度/经度位置以及结果的聚类分配来验证我们的结果，以展示 TICC如何成为从多元时间序列进行无监督学习的有用工具。

2.构建问题

考虑一个T序列观测的时间序列，
在这里插入图片描述
式中，x_i为第i个多元观测。我们的目标是把这T个观测值聚到K个聚类中。然而，我们不是孤立地聚类每一个观测，而是在时间序列的前几个点的上下文中处理每一个点。因此，不仅仅是看x_t，我们反而聚集了一组尺寸为w的时间序列，这包括观察x_t−w+1，…, x_t，我们把它连接成一个nw维的向量，我们称之为X_t。我们将这个从X₁到X_T的新序列称为X。注意，在每个点x_T与其子序列X_T之间存在一个双射，或者说双向一对一映射.(x_orig的第一个w观测结果映射到一个更短的子序列，因为时间序列直到x₁才开始）。这些子序列是一个有用的工具，可以为每个T观测提供适当的上下文。例如,在汽车行驶过程中、一个观察可能显示汽车的当前状态(例如,开车直行15英里/小时),但一个短窗口,甚至只有几分之一秒,允许更完整的数据理解(例如,汽车是否加速或者减速)。因此，我们的方法不是直接对观测结果进行聚类，而是对这些子序列X1，…, XT。我们这样做是为了鼓励相邻的子序列属于同一个集群，这个目标我们称之为时间一致性。因此，我们的方法可以看作是[49]时间点聚类的一种形式，同时对时间序列进行分段和聚类。
Toeplitz Inverse Covariance-Based Clustering (TICC). 我们用一个逆高斯协方差Θ_i∈R ^nw×nw定义每个集群。回想一下,逆协方差之间的显示条件独立性的结构变量[26],所以Θ_i定义了一个马尔可夫随机场来编码聚类i的结构表示。除了提供可解释的结果，稀疏图形表示是防止[27]过拟合的有用方法。因此,我们的目标是解决这些K逆协方差Θ={Θ1,…,ΘK}, 每个集群一个,和由此产生的结果集P = {P1,…, PK}，其中Pi⊂{1,2，…T}。在这里，每个T点被精确地分配给一个簇。我们的总体优化问题是
在这里插入图片描述这就是TICC问题。 $\tau$ 为Toeplitz对称块 nw×nw矩阵的集合, $\left \|\lambda \circ \Theta_{i} \right \|_{1}$ 是对Hadamard乘积的一范式惩罚，用来激活稀疏逆协方差（ $\lambda$ 是正则参数）。此外， $ll\left ( X_{t},\Theta _{i} \right )$ 是X_t来自簇 i 的对数似然值。
在这里插入图片描述
其中， $\mu _{i}$ 是群集 i 的经验均值。 $\beta$ 是一个强制时间一致性的参数， $\mathbb{I}\left \{ X_{t-1}\notin P_{i} \right \}$ 是一个指示函数，用来检查相邻的点是否被分配到同一个簇中。