【论文翻译】CIKM 2023 | STAEformer:时空自适应嵌入使基础Transformer在交通预测中达到最先进性能 (SOTA)

image-20241011205151729

题目 Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting
源码地址 https://github.com/XDZhelheim/STAEformer
关键词 交通预测,时空嵌入,Transformer
发表会议 CIKM2023

摘要

随着智能交通系统(ITS)的快速发展,准确的交通预测已成为一个关键挑战。主要瓶颈在于捕捉复杂的时空交通模式。近年来,提出了许多具有复杂架构的神经网络来解决这一问题。然而,网络架构的进步遇到了性能提升的瓶颈。在本研究中,我们提出了一种称为时空自适应嵌入的新组件,该组件在使用标准Transformer的情况下仍能产生卓越的结果。我们提出的时空自适应嵌入Transformer(STAEformer)在五个真实世界的交通预测数据集上达到了最先进的性能。进一步的实验表明,时空自适应嵌入在交通预测中发挥了关键作用,有效捕捉了交通时间序列中内在的时空关系和时间信息。

CCS概念

  • 信息系统 → 时空系统;
  • 计算方法 → 人工智能。

1 介绍

交通预测旨在基于历史观测预测道路网络中的未来交通时间序列。近年来,深度学习模型的成功尤为显著,主要归因于其能够捕捉交通系统中固有的时空依赖性。其中,时空图神经网络 (STGNNs) 和基于Transformer的模型因其出色的性能变得非常流行。研究人员花费了大量精力开发复杂的交通预测模型,例如新的图卷积、学习图结构、高效的注意力机制,以及其他方法。然而,网络架构的进展遇到了性能提升的瓶颈,促使人们从复杂的模型设计转向更有效的表征技术。

image-20241011211043012

基于此,在本研究中,我们聚焦于输入嵌入,一种广泛使用的简单但强大的表征技术,许多研究人员往往在其有效性方面忽略了它。具体来说,它在输入上添加了一个嵌入层,为模型骨干提供了多种类型的嵌入。图1展示了之前模型中所采用嵌入的对比分析。STGNNs主要使用特征嵌入 E f E_f Ef,即一种转换将原始输入投射到隐藏空间。基于Transformer的模型需要额外的知识,如时间位置编码 E t p e E_{tpe} Etpe 和周期性(日常、每周、每月)嵌入 E p E_p Ep,这是由于注意力机制无法保留时间序列的位置信息。最近的模型,包括PDFOrmer、GMAN 和 STID,都应用了空间嵌入 E s E_s Es。值得注意的是,STID 是少数研究这些嵌入的研究之一。它采用了空间嵌入和时间周期嵌入,并结合了简单的多层感知机 (MLP),取得了显著的性能。

为了进一步增强表征的有效性,我们提出了一种新的时空自适应嵌入 E a E_a Ea,并将其与 E p E_p Ep E f E_f Ef 一起应用于vanilla Transformer,如图1d所示。具体来说,原始输入通过嵌入层获取输入嵌入,输入嵌入被传递给时空Transformer层,然后经过回归层以做出预测。我们提出的模型命名为时空自适应嵌入Transformer (STAEformer),其架构更加简洁,但在性能上达到了最新的SOTA(state-of-the-art)。在我们的模型中, E a E_a Ea 通过有效捕捉交通时间序列中的内在时空关系和时间信息,发挥了关键作用。实验和对五个真实交通数据集的分析证明,我们提出的 E a E_a Ea 能够使vanilla Transformer在交通预测中达到SOTA水平。

2 问题定义

给定过去 T T T 个时间帧的交通时间序列 X t − T + 1 : t X_{t-T+1:t} XtT+1:t,交通预测旨在推断未来 T ′ T' T 个时间帧的交通数据,公式如下:

[ X t − T + 1 , … , X t ] → [ X t + 1 , … , X t + T ′ ] , [X_{t-T+1}, \dots, X_t] \rightarrow [X_{t+1}, \dots, X_{t+T'}], [XtT+1,,Xt][Xt+1,,Xt+T]

其中每个帧 X i ∈ R N × d X_i \in \mathbb{R}^{N \times d} XiRN×d N N N 是空间节点的数量, d = 1 d=1 d=1 是交通量的输入维度。

3 方法

如图2所示,我们的模型由一个嵌入层、沿时间轴应用的vanilla transformer作为时间Transformer层、沿空间轴应用的空间Transformer层和回归层组成。

image-20241011211204260

3.1 嵌入层

为了保持原始数据中的固有信息,我们利用全连接层来获得特征嵌入 E f ∈ R T × N × d f E_f \in \mathbb{R}^{T \times N \times d_f} EfRT×N×df

E f = F C ( X t − T + 1 : t ) E_f = FC(X_{t-T+1:t}) Ef=FC(X

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

holdoulu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值