【论文翻译】KDD 2021 | ST-Norm：多变量时间序列预测的时空归一化

原创

已于 2024-10-28 14:54:58 修改 · 1.4k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#时序数据库 #深度学习 #python

于 2024-10-28 14:51:50 首次发布

论文题目	ST-Norm: Spatial and Temporal Normalization for Multi-variate Time Series Forecasting
作者	Jinliang Deng, Xiusi Chen, Renhe Jiang, Xuan Song, Ivor W. Tsang
机构	澳大利亚人工智能研究所，悉尼科技大学；加州大学洛杉矶分校；东京大学空间信息科学中心等
论文链接	ST-Norm
源码地址	https://github.com/JLDeng/ST-Norm
关键词	时空归一化、时间序列预测、深度学习、Wavenet、Transformer

摘要

多变量时间序列（MTS）数据是现实世界中一种无处不在的数据抽象形式。每个MTS实例都来源于一个具有特定动态但通常未知的混合动力系统。这种动力系统的混合特性是复杂外部影响的结果，从时间视角可以总结为高频和低频影响，从空间视角则可以分为全局和局部影响。这些影响还决定了MTS未来的发展，使其在时间序列预测任务中变得尤为重要。然而，传统方法在从原始数据中剥离每种影响产生的组件方面存在内在的困难。为此，我们提出了两种归一化模块——时间归一化和空间归一化，分别提取了原始数据中的高频分量和局部分量。此外，这两个模块可以轻松地集成到Wavenet和Transformer等经典深度学习架构中。我们在三个数据集上进行了广泛的实验，结果表明，通过增加归一化模块，经典架构在MTS应用中的性能得到了显著提升，并且在与现有MTS模型的比较中达到了最新的结果。

1 引言

时间序列预测在许多工业和商业应用中是一个至关重要的问题。例如，如果公共交通运营商能够预测到某个特定区域在接下来的几个小时内将面临运力不足的问题，他们可以提前分配足够的运力，以减少排队时间。再如，投资者可以借助能够预测潜在市场崩溃的机器人顾问来避免经济损失。由于影响因素的复杂和持续波动，现实世界的时间序列往往表现出非平稳性，即呈现出多样化的动态。例如，公路上的交通量在很大程度上受到道路条件、位置以及当前的时间和天气状况的影响。在零售业中，当前季节、价格和品牌是商品销售的决定因素。多样化的动态给时间序列预测带来了巨大的挑战。在这项工作中，我们将研究多变量时间序列预测，即多个变量随时间共同演变的情况。

传统的时间序列预测算法（如ARIMA和状态空间模型（SSMs））为建模和学习时间序列模式提供了一个有原则的框架。然而，这些算法对时间序列的平稳性有严格的要求，这在实际使用中会受到严重限制，尤其是在大多数影响因素不可用的情况下。随着深度学习技术的最新进展，我们现在能够将复杂动态作为一个整体进行处理，即使在没有额外的影响因素支持的情况下也能处理。常见的应用于时间序列数据的神经网络架构包括循环神经网络（RNN）、长短期记忆网络（LSTM）、Transformer、Wavenet和时间卷积网络（TCN）。

1.1 初步分析

关于MTS预测的现有研究成果非常丰富。然而，很少有研究精确识别出此类问题的关键瓶颈。在正式提出我们的解决方案之前，我们首先系统性地分析了问题，以获得更深入的见解。在现实环境中，我们将施加在MTS上的影响按其在空间和时间维度上的激活范围粗略分类为四类。这四类分别是低频局部影响、低频全局影响、高频局部影响和高频全局影响。在这里，“低频”或“高频”描述了影响在时间视角中的激活范围，而“全局”或“局部”则描述了其在空间视角中的激活范围。特别地，“低频”表示影响变化平稳，或换句话说，倾向于在相对较长时间内保持稳定；“高频”表示影响剧烈波动；“全局”表示影响对所有时间序列施加相似的作用；“局部”表示影响仅作用于单个时间序列，或对不同时间序列产生不同的作用。尽管在时间或空间维度上的激活范围位于连续光谱上，但我们认为仅考虑这四种极端情况足以揭示MTS的本质。

时间序列的任何测量值都是与这四类影响相关的四个分量的混合，可以如下公式表示：

$X_{i,t} = X^{lh}_{i,t} X^{ll}_{i,t} X^{gh}_t X^{gl}_t + const,$

其中， $X_{i,t} \in \mathbb{R}$ 表示时间 $t$ 上第 $i$ 个时间序列的测量值， $X^{lh}_{i,t} \in \mathbb{R}$ 表示局部高频分量， $X^{ll}_{i,t} \in \mathbb{R}$ 表示局部低频分量， $X^{gh}_t \in \mathbb{R}$ 表示全局高频分量， $X^{gl}_t \in \mathbb{R}$ 表示全局低频分量。

为了更深入理解这种分解形式，以下真实世界的例子用于展示。我们展示的时间序列数据是纽约市三个特定区域共享单车需求的变化。在这个例子中，时间作为一个全局高频影响；区域特征（包括人口和功能）作为一个局部低频影响；星期几则作为一个全局低频影响。局部高频影响难以从原始数据中区分，例如交通事故或拥堵。

时间序列预测主要基于其最近的动态，该动态由连续的测量值组成。形式上，动态表示为向量 $\left[X_{i,t}, X_{i,t-1}, \cdots, X_{i,t-\delta+1}\right]^\top$ ，其中 $\delta$ 为跨度时间。然而，常见的用于时间序列预测任务的深度学习架构（如LSTM、Transformer和Wavenet）仅捕捉该向量的方向信息，这是一种特殊的时间关系类型，导致一些信息成分被舍弃。

为了获得模型化的时间关系的特定形式，我们假设两个大多数现实问题中成立的前提：（1）低频分量（包括全局和局部的低频分量）在给定时间段内是稳定的；（2）全局高频分量远大于局部高频分量。基于公式（1）的分解以及这两个假设，自然可以推导出从其恒定起点的基点出发的向量方向，其中历史时间 $t_0$ 的条目计算如下：

$\frac{X_{i,t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X_{i,t-t'})^2}} = \frac{X^{lh}_{i,t_0} X^{ll}_{i,t_0} X^{gh}_{t_0} X^{gl}_{t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X^{lh}_{i,t-t'} X^{ll}_{i,t-t'} X^{gh}_{t-t'} X^{gl}_{t-t'})^2}} \approx \frac{X^{gh}_{i,t_0}}{\sqrt{\sum_{t'=0}^{\delta-1} (X^{gh}_{i,t-t'})^2}},$