【论文翻译】AAAI2023 | PDFormer:用于交通流量预测的传播延迟感知的动态长距离Transformer

image-20240906091628520

题目 PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction
作者 姜佳伟(共一), 韩程凯(共一), 通讯作者王静远教授, 共同作者中国人民大学赵鑫教授
论文链接 https://ojs.aaai.org/index.php/AAAI/article/view/25556
源码 https://github.com/BUAABIGSCity/PDFormer
发表会议 AAAI2023 (CCF-A)

摘要

交通流量预测是智能交通系统的核心技术之一,具有广泛的应用范围。交通流量预测的基本挑战在于如何有效地建模复杂的时空依赖性。时空图神经网络(GNN)模型已成为解决这一问题的最有前景的方法之一。

然而,基于GNN的模型在交通预测方面存在三个主要限制:

  1. 大多数方法以静态方式建模空间依赖性,限制了学习动态城市交通模式的能力;
  2. 大多数方法只考虑了短程空间信息,无法捕捉长程空间依赖性;
  3. 这些方法忽视了在交通系统中,地点之间的交通状况传播存在时间延迟。

我们提出了一种新颖的、考虑传播延迟的动态长距离Transformer模型,命名为PDFormer,用于精确的交通流预测。

  • 具体来说,我们设计了一个空间自注意力模块来捕捉动态的空间依赖性。
  • 然后,引入了两个图掩码矩阵,突出显示短程和长程视角的空间依赖性。
  • 此外,提出了一个延迟感知的特征变换模块,使PDFormer能够明确地建模空间信息传播中的时间延迟。

在六个真实世界的公共交通数据集上的广泛实验结果表明,我们的方法不仅达到了最先进的性能,而且还表现出了竞争性的计算效率。此外,我们通过可视化学习到的时空注意力图,使我们的模型具有很高的可解释性。

1 引言

近些年,快速的城市化给现代城市交通管理带来了巨大挑战。作为现代智能城市不可或缺的一部分,智能交通系统(ITS)被开发出来,用于分析、管理和改善交通状况(如缓解交通拥堵)。作为ITS的核心技术之一,交通流量预测得到了广泛的研究,旨在根据历史观测值预测未来的交通流量。准确的交通流量预测在许多与交通相关的应用中非常有用,包括路线规划、车辆调度和缓解拥堵。

交通流量预测的根本挑战在于如何有效地捕捉和建模交通数据中复杂的时空依赖性。文献中已经进行了许多尝试来开发各种深度学习模型以解决这一任务。早期的解决方案中,卷积神经网络(CNN)被应用于基于网格的交通数据中,以捕捉空间依赖性,而循环神经网络(RNN)则被用于学习时序动态。后来,图神经网络(GNN)被证明更适合于建模交通数据的基础图结构,因此,基于GNN的方法被广泛用于交通预测。

尽管基于GNN(图神经网络)的模型在交通预测中效果显著,但仍存在三个主要的局限性。首先,交通系统中位置之间的空间依赖性是高度动态的,而不是静态的,因为它们受到出行模式和突发事件的影响。 例如,如图1(b)所示,节点A和B之间的相关性在早高峰时变强,而在其他时段则减弱。然而,现有方法主要以静态方式建模空间依赖关系(无论是预定义的还是自学习的),这限制了其学习动态城市交通模式的能力。

其次,由于城市的功能划分,两个相距较远的地点 ,如图1c中的节点A和C,可能反映出类似的交通模式,这意味着这些地点之间存在长程的空间依赖性。 现有方法通常在局部设计,无法捕捉长程依赖性。例如,基于GNN的模型常常由于过度平滑而难以捕捉长距离的空间依赖性。

第三,交通系统中地点之间的信息传播可能存在延迟。 例如,当某一位置发生交通事故时,可能需要几分钟(延迟)才能影响邻近位置的交通状况,如图1(d)中的节点D和E。然而,这种特性在典型的基于GNN的模型的即时消息传递机制中被忽视了。

image-20240906093317945

为了解决上述问题,在本文中,我们提出了一种基于传播延迟感知的动态长距离Transformer模型,命名为PDFormer,用于交通流预测。

  • 我们的核心技术贡献是设计了一种新的空间自注意力模块来捕捉动态的空间依赖性。该模块通过不同的图掩码方法,将局部地理邻域和全局语义邻域信息结合到自注意力交互中,从而能够同时捕捉交通数据中的短程和长程空间依赖性。
  • 基于此模块,我们进一步设计了一个延迟感知特征变换模块,以将历史交通模式整合到空间自注意力中,并明确建模空间信息传播的时间延迟。
  • 最后,我们采用时序自注意力模块来识别交通数据中的动态时间模式。

综上所述,本文的主要贡献如下:

  1. 我们基于时空自注意力机制提出了PDFormer模型,用于精确的交通流预测。该方法充分解决了交通数据复杂特性带来的问题,即动态性、长程性和时间延迟。
  2. 我们设计了一种空间自注意力模块,能够通过不同的图掩码方法建模局部地理邻域和全局语义邻域,并进一步设计了一个延迟感知的特征变换模块,明确建模空间信息传播中的时间延迟。
  3. 我们在六个真实世界的公共数据集上进行了多步和单步交通流预测实验。结果表明,我们的模型显著优于最先进的模型,并表现出竞争性的计算效率。此外,实验的可视化表明,我们的方法通过学习到的时空注意力图具有高度的可解释性。

2 预备知识

在本节中,我们引入一些符号并形式化地描述交通流预测问题。

2.1 符号和定义

定义 1(道路网络)
我们将道路网络表示为一个图 G = ( V , E , A ) G = (\mathcal{V}, \mathcal{E}, A) G=(V,E,A),其中 V = { v 1 , … , v N } \mathcal{V} = \{v_1, \dots, v_N\} V={ v1,,vN} 是包含 N N N 个节点的集合( ∣ V ∣ = N |\mathcal{V}| = N V=N), E ⊆ V × V \mathcal{E} \subseteq \mathcal{V} \times \mathcal{V} EV×V 是边的集合, A A A 是网络 G G G 的邻接矩阵。这里, N N N 表示图中节点的数量。

定义 2(交通流张量)
我们用 X t ∈ R N × C X_t \in \mathbb{R}^{N \times C} XtRN×C 表示在时间 t t t 时刻道路网络中 N N N 个节点的交通流量,其中 C C C 是交通流量的维度。例如,当数据包括流入和流出时, C = 2 C = 2 C=2。我们用 X = ( X 1 , X 2 , … , X T ) ∈ R T × N × C \mathcal{X} = (X_1, X_2, \dots, X_T) \in \mathbb{R}^{T \times N \times C} X=(X1,X2,,XT)RT×N×C 表示在 T T T 个时间片内所有节点的交通流张量。

2.2 问题形式化

交通流预测旨在根据历史观测数据,预测未来时间段内交通系统的交通流量。形式化地,给定在交通系统上观测到的交通流张量 X \mathcal{X} X,我们的目标是学习一个映射函数 f f f,从之前 T T T 步的交通流观测值预测未来 T ′ T' T 步的交通流量:公式(1)

[ X ( t − T + 1 ) , … , X t ; G ] → f [ X ( t + 1 ) , … , X ( t + T ′ ) ] . [\mathcal{X}_{(t-T+1)}, \dots, \mathcal{X}_t; G] \xrightarrow{f} [\mathcal{X}_{(t+1)}, \dots, \mathcal{X}_{(t+T')}]. [X(tT+1),,Xt;G]f [X(t+1),,X(t+T)].

3 方法

图2显示了PDFormer的框架,框架包括数据嵌入层、堆叠的 L L L 个时空编码器层以及输出层。我们将详细描述每个模块。

image-20240906100301195

3.1 数据嵌入层

数据嵌入层将输入转换为高维表示。首先,原始输入 X \mathcal{X} X 通过一个全连接层转换为 X d a t a ∈ R T × N × d \mathcal{X}_{data} \in \mathbb{R}^{T \times N \times d} XdataRT×N×d,其中 d d d 是嵌入维度。接着,我们进一步设计了一个时空嵌入机制,将必要的知识引入到模型中,包括空间图Laplacian嵌入以编码道路网络结构,时间周期嵌入以建模交通流的周期性。

为了表示道路网络的结构,我们使用图Laplacian特征向量(Belkin和Niyogi 2003),它能够更好地描述图中节点之间的距离。首先,我们通过 Δ = I − D − 1 / 2 A D − 1 / 2 \Delta = I - D^{-1/2} A D^{-1/2} Δ=ID1/2AD1/2获得标准化的Laplacian矩阵,其中 A A A 是邻接矩阵, D D D 是度矩阵, I I I 是单位矩阵。然后我们进行特征值分解 Δ = U ⊤ Λ U \Delta = U^{\top} \Lambda U Δ=UΛU,得到特征值矩阵 Λ \Lambda Λ 和特征向量矩阵 U U U。我们通过线性投影选择前 k k k 个最小的非平凡特征向量,生成空间图Laplacian嵌入 X s p e ∈ R N × d \mathcal{X}_{spe} \in \mathbb{R}^{N \times d} XspeRN×d。Laplacian特征向量嵌入图的欧几里得空间,保留了全局图结构信息(Dwivedi等,2020)。

此外,城市交通流受到人们出行模式和生活方式的影响,具有明显的周期性,如早晚高峰。因此,我们引入了两个嵌入来分别覆盖周周期和日周期,分别表示为 t w ( t ) , t d ( t ) ∈ R d t_w(t), t_d(t) \in \mathbb{R}^d tw(t),td(t)Rd。其中, w ( t ) w(t) w(t) d ( t ) d(t) d(t) 是将时间 t t t 转换为周索引(1到7)和分钟索引(1到1440)的函数。时间周期嵌入 X w , X d ∈ R T × d \mathcal{X}_w, \mathcal{X}_d \in \mathbb{R}^{T \times d} Xw,XdRT×d 通过对所有时间片的嵌入进行拼接获得。

根据原始的Transformer架构,我们还使用了时间位置编码 X t p e ∈ R T × d \mathcal{X}_{tpe} \in \mathbb{R}^{T \times d} XtpeRT×d 来引入输入序列中的位置信息。

最后,我们通过简单地将上述嵌入向量相加得到数据嵌入层的输出:公式(2)

X e m b = X d a t a + X s p e + X w + X d + X t p e . \mathcal{X}_{emb} = \mathcal{X}_{data} + \mathcal{X}_{spe} + \mathcal{X}_w + \mathcal{X}_d + \mathcal{X}_{tpe}. Xemb=Xdata+Xspe+Xw+X

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

holdoulu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值