
| 题目 | Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting |
|---|---|
| 源码地址 | https://github.com/XDZhelheim/STAEformer |
| 关键词 | 交通预测,时空嵌入,Transformer |
| 发表会议 | CIKM2023 |
摘要
随着智能交通系统(ITS)的快速发展,准确的交通预测已成为一个关键挑战。主要瓶颈在于捕捉复杂的时空交通模式。近年来,提出了许多具有复杂架构的神经网络来解决这一问题。然而,网络架构的进步遇到了性能提升的瓶颈。在本研究中,我们提出了一种称为时空自适应嵌入的新组件,该组件在使用标准Transformer的情况下仍能产生卓越的结果。我们提出的时空自适应嵌入Transformer(STAEformer)在五个真实世界的交通预测数据集上达到了最先进的性能。进一步的实验表明,时空自适应嵌入在交通预测中发挥了关键作用,有效捕捉了交通时间序列中内在的时空关系和时间信息。
CCS概念
- 信息系统 → 时空系统;
- 计算方法 → 人工智能。
STAEformer
1 介绍
交通预测旨在基于历史观测预测道路网络中的未来交通时间序列。近年来,深度学习模型的成功尤为显著,主要归因于其能够捕捉交通系统中固有的时空依赖性。其中,时空图神经网络 (STGNNs) 和基于Transformer的模型因其出色的性能变得非常流行。研究人员花费了大量精力开发复杂的交通预测模型,例如新的图卷积、学习图结构、高效的注意力机制,以及其他方法。然而,网络架构的进展遇到了性能提升的瓶颈,促使人们从复杂的模型设计转向更有效的表征技术。

基于此,在本研究中,我们聚焦于输入嵌入,一种广泛使用的简单但强大的表征技术,许多研究人员往往在其有效性方面忽略了它。具体来说,它在输入上添加了一个嵌入层,为模型骨干提供了多种类型的嵌入。图1展示了之前模型中所采用嵌入的对比分析。STGNNs主要使用特征嵌入 E f E_f Ef,即一种转换将原始输入投射到隐藏空间。基于Transformer的模型需要额外的知识,如时间位置编码 E t p e E_{tpe} Etpe 和周期性(日常、每周、每月)嵌入 E p E_p Ep,这是由于注意力机制无法保留时间序列的位置信息。最近的模型,包括PDFOrmer、GMAN 和 STID,都应用了空间嵌入 E s E_s Es。值得注意的是,STID 是少数研究这些嵌入的研究之一。它采用了空间嵌入和时间周期嵌入,并结合了简单的多层感知机 (MLP),取得了显著的性能。
为了进一步增强表征的有效性,我们提出了一种新的时空自适应嵌入 E a E_a Ea,并将其与 E p E_p Ep 和 E f E_f Ef 一起应用于vanilla Transformer,如图1d所示。具体来说,原始输入通过嵌入层获取输入嵌入,输入嵌入被传递给时空Transformer层,然后经过回归层以做出预测。我们提出的模型命名为时空自适应嵌入Transformer (STAEformer),其架构更加简洁,但在性能上达到了最新的SOTA(state-of-the-art)。在我们的模型中, E a E_a Ea 通过有效捕捉交通时间序列中的内在时空关系和时间信息,发挥了关键作用。实验和对五个真实交通数据集的分析证明,我们提出的 E a E_a Ea 能够使vanilla Transformer在交通预测中达到SOTA水平。
2 问题定义
给定过去 T T T 个时间帧的交通时间序列 X t − T + 1 : t X_{t-T+1:t} Xt−T+1:t,交通预测旨在推断未来 T ′ T' T′ 个时间帧的交通数据,公式如下:
[ X t − T + 1 , … , X t ] → [ X t + 1 , … , X t + T ′ ] , [X_{t-T+1}, \dots, X_t] \rightarrow [X_{t+1}, \dots, X_{t+T'}], [Xt−T+1,…,Xt]→[Xt+1,…,Xt+T′],
其中每个帧 X i ∈ R N × d X_i \in \mathbb{R}^{N \times d} Xi∈RN×d, N N N 是空间节点的数量, d = 1 d=1 d=1 是交通量的输入维度。
3 方法
如图2所示,我们的模型由一个嵌入层、沿时间轴应用的vanilla transformer作为时间Transformer层、沿空间轴应用的空间Transformer层和回归层组成。

3.1 嵌入层
为了保持原始数据中的固有信息,我们利用全连接层来获得特征嵌入 E f ∈ R T × N × d f E_f \in \mathbb{R}^{T \times N \times d_f} Ef∈RT×N×df:
E f = F C ( X t − T + 1 : t ) E_f = FC(X_{t-T+1:t}) Ef=FC(X

最低0.47元/天 解锁文章
1358

被折叠的 条评论
为什么被折叠?



