【论文翻译】ICDE2023 | Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting

最新推荐文章于 2024-08-25 20:54:36 发布

原创

最新推荐文章于 2024-08-25 20:54:36 发布 · 1.9k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #pytorch #深度学习

ICDE2023 |Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting

题目	Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting 交通流量预测的动态超图结构学习
作者	共一：赵禹昇（22级硕士）、罗霄（UCLA博士后）琚玮、陈冲、华先胜、张铭（通讯作者）
机构	PKU、UCLA
期刊	2023 ICDE —— CCF A
论文链接	Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting
关键词	动态超图，超图结构学习，交通流量预测

摘要

这篇论文研究了交通流量预测问题，旨在根据道路网络和过去的交通状况预测未来的交通状况。通常通过建模复杂的时空关系来解决这个问题，使用时空图神经网络（GNNs）。然而，这些方法的性能仍然不尽如人意，因为GNNs在处理复杂的交通网络时通常具有有限的表示能力。图结构本质上难以捕捉非成对的关系。更糟的是，现有的方法遵循信息传递的范式，线性地聚合邻居信息，无法捕捉复杂的时空高阶交互。

为了解决这些问题，本文提出了一种名为**动态超图结构学习（DyHSL）**的新模型用于交通流预测。

为了学习非成对关系，DyHSL提取超图结构信息以建模交通网络中的动态关系，并通过聚合来自其相关超边的消息来更新每个节点的表示。

此外，为了捕捉道路网络中的高阶时空关系，我们引入了一个交互图卷积模块，该模块进一步建模每个节点的邻域交互。

最后，我们将这两种视角整合到一个整体的多尺度相关性提取模块中，通过不同尺度的时间池化来建模不同的时间模式。

对四个流行的交通基准数据集的广泛实验表明，与多种竞争基线相比，我们提出的DyHSL模型具有显著的效果。

1 引言

1.1 背景及相关研究

时空预测一直是一个基本的课题，涵盖了包括交通流量预测、物理规律分析、疾病传播理解在内的一系列应用。在各种相关的实际问题中，交通流量预测旨在根据道路网络和过去的交通状况预测未来的交通状况。这个问题在城市系统中起着重要作用，可以显著改善拥堵管理。

在文献中，已经开发出一系列交通流量预测方法，这些方法大致可以分为基于物理的方法和基于学习的方法。通常，基于物理的方法利用耦合微分方程来表征交通系统。在理论保证的前提下，这些方法通常在模拟数据中表现优异。然而，它们通常依赖于强模型假设，而这些假设在现实复杂情况中难以满足。相比之下，基于学习的方法试图利用历史观测数据来优化机器学习模型，这在各种解决方案中非常流行。

早期的努力尝试将传统模型如自回归综合滑动平均（ARIMA）和支持向量机（SVM）应用于这一问题。最近，基于深度学习的方法由于深度神经网络的表示能力而取得了更好的性能。一方面，这些方法通常利用图神经网络（GNNs）从道路网络中提取结构化的空间关系。另一方面，它们利用循环神经网络（RNNs）或时间卷积网络（TCNs）来提取时间关系。通过将不同的网络整合到时空图神经网络（STGNNs）中，它们可以提供准确的交通预测。

1.2 现有方法的不足

然而，现有的交通流量预测方法存在两个显著的缺点，导致性能不佳。首先，无法捕捉动态的非成对关系。现有方法通常利用图来表征动态交通系统中的关系，这些图只能捕捉成对关系。然而，系统中可能存在大量的非成对结构关系。如图1所示，一场车祸可能影响动态交通网络中的多个位置，模型需要捕捉这种动态的非成对影响。类似地，住宅区或商业区周围的位置可能共享相似的交通状况，当涉及多个节点共享相似属性时，成对关系建模效率低下。因此，关系描述的能力不足限制了时空GNNs的性能。其次，无法充分探索高阶关系。当前的方法通常利用GNNs在每个时间步长上提取空间特征，并使用RNNs或TCNs聚合每个时间步长的特征。这些方法通常遵循消息传递的范式，线性地聚合邻居信息。实际上，真实的交通数据非常复杂，每个观测的邻域中可能存在大量高阶信息。无法建模高阶时空相关性，阻碍了模型进行准确交通预测的能力。

1.3 提出方法

为了克服上述缺点，我们提出了一种名为动态超图结构学习（DyHSL）的新方法用于交通流预测。

首先，我们将先前的道路信息扩展到包含空间和时间边的时间图中，便于使用图卷积探索时空相关性。
为了建模动态的非成对关系，我们提出了一个动态超图结构学习（DHSL）模块，在时空网络中的观测之间构建超图。
为了减少模型参数，超图的关联矩阵从每个时间戳的节点状态表示中推导出来。
然后，我们提出了超图卷积范式，通过从相关的超边中获取信息来更新节点表示，从而捕捉交通网络中的更复杂关系。
此外，为了探索道路网络中的高阶时空关系，我们引入了一个交互图卷积（IGC）模块，利用组合和聚合算子探索邻域交互。
然后，将邻域嵌入与线性聚合的邻域嵌入相结合，更新节点表示。
最后，我们将这两个模块整合到一个多尺度整体相关性提取（MHCE）模块中，该模块首先使用不同粒度的时间池化来建模不同的时间模式。
然后，数据被并行地输入到两个模块，即DHSL模块和IGC模块中，并聚合其输出以迭代地更新状态表示。

1.4 主要贡献

对三个流行交通数据集的广泛实验表明，我们提出的DyHSL在不同设置下能够取得优越的性能。总之，本文的贡献有三点：

我们提出了一种新模型DyHSL用于交通流预测，通过超图结构学习建模动态非成对关系，并通过超图卷积捕捉交通网络中的复杂关系。
为了探索道路网络中的高阶时空关系，DyHSL引入了一个交互图卷积模块，在该模块中，邻域中的节点嵌入以非线性方式聚合。
在四个著名的数据集上进行了综合实验，结果表明，DyHSL在各种竞争基线中表现优异。

2 相关工作

A. 图神经网络

图神经网络（GNNs）作为一种有效的工具，将深度神经网络扩展到处理结构化数据，已被广泛应用于各种任务，包括图分类、节点分类和链路预测。

现有的GNN方法通常遵循迭代消息传递范式，通过递归地将图转化为低维嵌入空间，以捕捉结构信息和节点属性。

最近，提出了多种GNN变体，以更好地提取结构化数据中的空间关系。

Bilinear GNN试图在消息传递过程中建模相邻节点之间的交互，以增强其表示能力。
SimP-GCN通过充分探索图结构来保持节点相似性。
HGCN使用图胶囊来获取层次语义。

我们提出的DyHSL与HGCN在三个方面有所不同：

DyHSL专注于动态图学习，而HGCN处理静态图。
HGCN通过底层异构因素构建解耦的图胶囊。相比之下，我们的DyHSL通过低秩矩阵分解学习时间超图，既高效又能够同时捕捉复杂的空间和时间关系，从而有效地进行交通流量预测。
我们的方法利用超图来建模复杂的高阶交通关系，而HGCN利用图胶囊来获取层次语义。

B. 超图神经网络

作为图的推广形式，超图由节点和超边组成。与图结构数据不同，超图可以描述非成对的连接，因为每个超边可以连接多个节点。由于在各种应用中出现了大量复杂的结构化数据，如推荐系统、链路预测和社区检测，超图学习最近引起了更多关注。由于超图是图的推广形式，这些方法通常是图神经网络的扩展。

早期工作利用p-拉普拉斯算子，将图上的谱方法扩展到超图。超图神经网络（HGNN）是第一个基于空间的方法，通过研究高阶结构信息发现潜在的节点表示。然而，大多数这些工作集中于静态超图。最近的努力已经开始从动态超图中学习来解决这一问题。动态超图神经网络（DHGNN）是第一个处理超边发展的尝试，构建动态超图并迭代执行超图卷积。

与DHGNN使用kNN和K-Means算法聚类节点特征来构建超图相比，我们的DyHSL通过低秩矩阵分解显式地学习超图结构，这更加高效且有效。动态超图卷积网络（DyHCN）在动态超图中使用注意力机制研究高阶相关性。然而，当前研究通常集中于从超图中学习，而我们的模型通过超图结构学习来揭示交通网络中动态复杂的相关性。

C. 交通流量预测

近年来，交通流量预测受到了广泛关注，提出了许多时空预测方法来解决这个问题。解决这个问题的大部分方案基于机器学习算法，这些算法根据从众多传感器收集的时空数据预测未来的交通状况。传统方法包括k-近邻算法（kNN）、自回归综合滑动平均（ARIMA）和支持向量机（SVM），它们通常无法充分建模空间关系。随着深度神经网络的发展，基于深度学习的方法成为主流解决方案。这些方法的本质是使用深度神经网络建模交通数据中的时空相关性。在各种神经网络架构中，图神经网络（GNNs）非常适合从道路网络中提取结构化的空间关系，而序列神经网络可以轻松提取时间关系。

最近，提出了各种时空GNN方法，捕捉复杂的时空关系，以有效的交通预测。例如，

STSGCN构建了一个时空图，并在其上执行局部化图卷积。
- 相比于STSGCN专注于捕捉成对和局部化的时空依赖性，提出的DyHSL学习交通数据下的超图结构，有助于模型捕捉长程和非成对关系。
ASTGCN将注意力机制引入时空图。
- 然而，这导致了二次复杂度，而提出的DyHSL在图和观测长度上都实现了线性复杂度。
LRGCN也被提出用于更高效地编码时空图。
- 然而，它倾向于在空间和时间上捕捉局部和成对关系。与LRGCN相比，提出的DyHSL可以通过动态超图结构学习捕捉多个节点之间的长依赖关系。

超图也被用于时空预测。然而，大多数现有工作（例如HGC-RNN和DSTHGCN）需要预定义的超图作为输入，而我们的DyHSL学习时空数据下的结构。更详细的这些时空GNN方法的描述可以在第五章A3节中找到。

3 预备知识

A. 问题定义

在交通流预测问题中，我们提供了一个道路网络和历史交通数据。道路网络被表示为一个加权图 $G = (V, E, A)$ ，其中 $V$ 表示道路网络中不同位置的一组 $N$ 个节点， $E$ 表示一组边，可以在权重邻接矩阵 $\in \mathbb{R}^{N \times N}$ 中总结。我们将历史交通观测数据表示为图信号张量 $[X_1, X_2, \cdots, X_T] \in \mathbb{R}^{T \times N \times F}$ ，其中 $T$ 表示观测长度， $F$ 表示节点属性的维度。我们的目标是学习一个函数，将历史的 $T$ 个观测值映射到预测未来 $T^{'}$ 步的交通状况。在公式(1)中，
$[X_{t^0-T+1}, \cdots, X_{t^0}; G] \rightarrow \left[ \hat{X}_{t^0+1}, \hat{X}_{t^0+2}, \cdots, \hat{X}_{t^0+T'} \right].$
此外，为了清楚起见，本文中使用的符号如下表所示：

符号	描述
$G = (V, E, A)$	图
$T$	观测的长度
$X$	图信号张量
$G = (V, E)$	超图
$\Lambda$	关联矩阵
$G_H$	时间图
$h_i^{(t, l)}$	先前图卷积中的状态表示
$\hat{A}$	时间图的邻接矩阵
$\bar{A}$	时间图的归一化邻接矩阵
$F$	第一个模块中的节点嵌入矩阵
$R$	第二个模块中的节点嵌入矩阵
$\Delta \epsilon^l$	整体状态表示矩阵
$\gamma_i$	最终的全局嵌入

B. 超图

一个超图可以表示为 $G = (V, E)$ ，其中 $V$ 表示节点集， $E$ 表示超边集。与图不同，超图允许多个节点与一个超边相连。同样，一个节点可以与多个超边相关联。因此，我们使用关联矩阵 $\Lambda \in \mathbb{R}^{|V| \times |E|}$ 来表示超图的结构。形式上，对于 $\in V$ 和 $\in E$ ，我们有公式(2)：
$\Lambda(v, e) = \begin{cases} 1, & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases}$
我们可以简单地将关联矩阵扩展为加权形式，公式(3)
$\Lambda(v, e) = \begin{cases} w(v, e), & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases}$
其中 $w (v, e)$ 表示节点 $v$ 和超边 $e$ 的交互得分。

4 方法

本研究提出了一种名为DyHSL的新模型用于交通流预测。DyHSL首先将道路信息扩展到包含时空边的时序图，然后进行图卷积。为了建模动态的非配对关系，我们引入了动态超图结构学习（DHSL）模块，以构建一个节点为所有时间戳观测值的时序超图。为了减少模型参数，时序超图的关联矩阵由每个节点状态表示的低秩形式推导出。接下来，我们引入超图卷积，通过其关联的超边更新节点表示。此外，我们引入了交互式图卷积（IGC）模块，以探讨道路网络中的高阶时空关系。在这个模块中，通过组合和聚合算子测量邻域交互，以更新节点表示。最后，我们将这两个模块整合到一个整体多尺度相关性提取模块中，该模块首先进行不同尺度的时序局部池化以建模不同的时序模式，然后并行地将数据输入到两个模块中。模型框架如图2所示。

A. 前置图编码器

首先，我们利用前置图编码器来捕捉道路网络的基本时空信息。在我们的编码器中，我们首先基于道路网络构建时序图，然后进行前置图卷积以获取节点状态表示。

时序图构建

以往的方法通常在每个时间步对道路网络（或其他预定义图）进行图卷积操作，以学习空间相关性。然而，它们在图卷积期间无法从其他时间步获取时序信息，无法同时建模时空交互。为了解决这个问题，我们引入了时序图，其中节点是由时间-位置对确定的观测值，通过时序边和空间边连接。这样，时空关系可以在图卷积期间联合建模。

具体而言，T个时间步在时序图GH中共生成了TN个节点 $\{v_t\}_{t\in[1:T],v\in V}$ 。在每个时间步，空间边与原始道路网络中的相同，而当两个观测值是连续的，则存在时序边。公式化地，带有自循环的邻接矩阵 $\hat{A} \in \mathbb{R}^{TN \times TN}$ 被推导如下：公式（4）
$\hat{A}(v_i^t, v_j^{t'}) = \begin{cases} A_{ij}, & t = t', \\ 1, & i = j, t' = t + 1 \text{ or } t, \\ 0, & \text{otherwise}. \end{cases}$