【论文翻译】TITAN:用于交通流量预测的异构专家混合模型

image-20241013203235806

题目 A TIME SERIES IS WORTH FIVE EXPERTS: HETEROGENEOUS MIXTURE OF EXPERTS FOR TRAFFIC FLOW PREDICTION
论文链接 https://arxiv.org/pdf/2409.17440
源码地址 https://github.com/sqlcow/TITAN(作者说论文被接受后,代码将更新)

摘要

准确的交通预测面临重大挑战,需要对时空线索及其跨多个变量的复杂交互有深入理解。近年来,交通预测系统的进展主要得益于复杂序列中心模型的发展。然而,现有方法通常在每个时间步嵌入多个变量和空间关系,这可能阻碍有效的以变量为中心的学习,最终导致传统交通预测任务中的性能下降。

为克服这些局限性,我们引入了以变量为中心和基于先验知识的建模技术。具体而言,我们提出了一种用于交通流量预测的异构专家混合模型(Heterogeneous Mixture of Experts, TITAN)。TITAN 最初由三个专家组成,专注于序列中心的建模。然后,我们设计了一种低秩自适应方法,使 TITAN 同时能够进行以变量为中心的建模。此外,我们使用基于先验知识的建模策略来监督门控过程,以确保准确的路由。

在两个公共交通网络数据集 METR-LA 和 PEMS-BAY 上的实验表明,TITAN 有效捕捉了变量依赖性,同时确保了准确的路由。因此,与之前的最新技术 (SOTA) 模型相比,TITAN 在所有评估指标上实现了从约 4.37% 到 11.53% 的提升。

1 介绍

交通预测涉及基于传感器收集的历史数据预测未来的交通状况,这是近年来引起广泛关注的任务。高精度的交通预测可以为决策者提供有价值的指导,提升安全性和便利性,并减少对环境的影响。此外,随着人工智能的快速发展,自动驾驶技术也将从精确和及时的交通流预测中获益。

交通数据主要是时空数据,这表明它本质上与传感器的空间位置密切相关,同时也表现出时间变化,从而展示了相当大的时空异质性。这一特征使得一些在传统时间序列预测中表现出色的方法,如支持向量回归(SVR)、随机森林(RF)和梯度提升决策树(GBDT),在时空预测任务中效果较差。近年来,时空预测的最新进展见证了图神经网络(GNN)的兴起,作为一种强大的工具,用于建模非欧几里得空间中的数据。沿着这一方向,这些方法通常可以根据图的定义进行分类:基于预定义时空图的模型、利用可学习图嵌入的模型以及具有时间变化图结构的模型。

早期的时空模型利用基于托布勒第一地理定律的预定义图或基于时间接近度和空间属性(例如,兴趣点,POI)来建模节点之间的关系。尽管这些图提供了有价值的先验知识,但它们常常无法捕捉节点之间的真实依赖关系,且不完整的数据链接可能导致忽略关键关系。GraphWaveNet通过引入可学习图嵌入解决了这些限制,启发了诸如RGDAN和MTGNN等模型。MegaCRN通过利用记忆网络来进一步提高图学习性能,建立在可学习图嵌入的概念上。然而,这些模型在很大程度上仍然是以序列为中心的,这限制了它们有效学习以变量为中心的表示能力,最终影响了它们在交通预测中的表现。最近的研究已经认识到这一限制,并强调了变量为中心的表示的重要性。例如,Gao 等试图在训练前平衡序列和变量为中心的建模。虽然这种方法在某种程度上被证明是有效的,但仅仅将序列为中心和变量为中心的建模通过加权平均简单结合起来,仍然难以适应现实世界场景的复杂性。

专家混合模型(MoE)的概念最早由Jacobs 等提出,此后进行了广泛的探索和改进。在经典的MoE模型中,采用具有相同架构的多个专家,并利用稀疏门控进行粗略路由。将MoE应用于时空预测任务允许同时使用多个空间建模技术。Lee 和 Ko进行了初步尝试,将MoE模型应用于时空序列预测,结合各种专家的优势,共同建模重复性和非重复性时空模式。MoE路由过程可以看作是一种记忆查询,这引入了一个挑战:在训练的早期阶段,记忆未能正确初始化。这阻碍了MoE学习输入和输出之间有意义的关系,特别是对于具有显著不同结构的模型而言,难以有效训练。

本文提出了一种名为TITAN的MoE模型,专门用于交通流预测。TITAN由三种不同类型的专家和一个路由机制组成:1)三个专注于序列中心建模的预测专家,2)一个变量中心的预测专家,以及3)一个基于先验知识的领导专家。序列中心的专家专注于学习时间依赖性并捕捉随时间变化的模式,而变量中心的专家则强调跨变量的关系,确保对数据有更全面的理解。我们采用低秩矩阵来对齐专家之间的知识,以解决专家整合过程中面临的挑战。此外,为了在训练的早期阶段缓解次优路由决策的影响,我们引入了一个领导专家来监督路由过程,确保在不确定情况下做出更明智的决策。通过这种自适应路由机制,TITAN能够有效地建模时空数据。我们的主要贡献总结如下:

  • 我们提出了TITAN,一种新颖的异构专家混合模型,结合了序列中心和变量中心的专家用于时空预测,并由领导专家监督路由过程,以改进复杂依赖关系的建模。
  • 我们将不同主干网络的模型集成到MoE框架中,利用低秩自适应矩阵,有效减少了传统MoE模型中固有的归纳偏差。该方法为设计更复杂的MoE架构提供了灵活的基础。
  • 我们设计了一种专家退火策略,用于MoE的记忆查询过程,逐渐减少领导专家的监督,允许TITAN在训练的早期避免次优路由决策并增强适应性。
  • 我们的模型在两个现实世界的数据集上进行了评估,较最新技术模型实现了4.37%到11.53%(平均9%)的提升。

2 相关工作

2.1 交通流量预测

交通流量预测任务表现出显著的时空异质性和复杂的变量交互模式。传统的机器学习方法,如支持向量回归(SVR)、随机森林(RF)和梯度提升决策树(GBDT),这些方法严重依赖特征工程,难以捕捉这些复杂的交互。早期的时空预测模型主要通过引入图结构将空间信息整合到模型中,从而能够有效处理非欧几里得空间。例如,2018年引入的DCRNN模型,通过将图卷积注入递归单元,并结合卷积神经网络(CNN)来建模时空特征,相比于传统方法如ARIMA(时序分析模型)表现出更好的性能。尽管这些方法有效,但它们严重依赖于基于欧几里得距离的预定义图结构和启发式规则(如托布勒第一地理定律),忽略了交通的动态特性(如高峰时间和事故)。后续的工作如GraphWaveNet通过使用节点嵌入构建可学习的邻接矩阵来建模空间关系,尽管取得了一定的改进,但在捕捉异常方面仍然有限。最近的模型如MegaCRN通过整合元图学习器支持的元节点库提升了模型在异常处理方面的适应性。尽管这些模型增强了稳健性,但它们受限于独立的建模技术。

这种限制引发了对基于专家混合模型(MoE)结构的时空预测模型的兴趣。例如,TESTAM集成了三个不同的专家,用于提升时空预测的性能。然而,这些研究仍然以序列为中心,限制了其有效捕捉变量间关系的能力。本文旨在通过联合建模序列和变量中心的依赖性来解决这一挑战,允许同时考虑局部和跨变量的交互。该方法为数据提供了更全面的视角,并增强了建模复杂时空动态的能力。

2.2 专家混合模型

专家混合模型(MoE)最初由Jacobs等人提出,允许各个专家从数据集的子集独立学习,然后集成到一个统一的系统中。在此基础上,Shazeer等人引入了稀疏门控专家混合模型(SMoE),该模型使用门控网络进行专家选择,并实现了top-K路由策略,为每个输入选择固定数量的专家。Lepikhin等人进一步表明,并非所有专家在MoE模型中都具有相等的贡献,舍弃了较不重要的专家以维持最佳性能。尽管取得了这些进展,MoE模型在时空任务中仍然面临挑战。训练早期阶段往往导致次优路由,特别是在处理不可预测事件时。此时,MoE难以从记忆中查询并检索适当的信息,导致无效的路由决策。虽然SMoE通过精细的位置依赖路由引入了归纳偏差,但主要集中于避免错误路由,而忽视了为最佳路径进行优化的问题。类似地,TESEAM通过使用两个损失函数进行改进,一个用于避免错误路径,另一个用于优化专家的最佳路径,但仍未解决时空预测中基本的归纳偏差问题。在交通流量预测等具有高度时空异质性的任务中,MoE模型对独立专家结构的依赖增加了归纳偏差,降低了整体模型性能。

具有相同结构的专家在MoE中引入了强烈的归纳偏差,进一步限制了模型的灵活性和适应性。此外,当涉及具有完全不同结构的模型时,MoE难以学习输入和输出之间的关系,难以有效地跨多个任务应用模型。这突显了对能够平衡路由精度和专家专业化的新方法的需求,特别是在意外事件至关重要的动态环境中。

3 方法

3.1 问题定义

交通流量预测是一种时空多变量时间序列预测问题。给定历史观测 X = { X t ∈ R N × F } X = \{ X_t \in \mathbb{R}^{N \times F} \} X={ XtRN×F},其中 N N N 是空间顶点的数量, F F F 是原始输入特征的数量(例如,速度,流量),每个时间步 t t t 由时空图 G t = ( V , E t , A t ) G_t = (V, E_t, A_t) Gt=(V,Et,At) 表示。任务是基于 T ′ T' T 个历史信号预测 T T T 个未来图信号。模型学习一个映射函数 f ( ⋅ ) : R T ′ × N × C → R T × N × C f(\cdot): \mathbb{R}^{T' \times N \times C} \rightarrow \mathbb{R}^{T \times N \times C} f():RT×N×CRT×N×C,其中 C C C 表示从原始 F F F 处理得到的特征。

3.2 模型架构

尽管序列为中心的模型在时空预测中表现出成功,但它们通常难以捕捉复杂的变量交互,且训练难度大,导致精度下降。此外,在 MoE 模型中,训练前期的内存初始化不当可能导致次优路由。TITAN 通过结合变量为中心和先验知识为中心的模型,解决了这些局限性,并引入了传统的序列为中心的方法。

图 1 所示,TITAN 集成了五个专家:

  1. 三个序列为中心的专家(处理 3.2.1 节中的序列依赖性)
  2. 一个变量为中心的专家(专注于 3.2.2 节中的变量间交互)
  3. 一个先验知识专家(指导 3.2.3 节中的早期路由)

除先验知识专家外,其余专家基于轻度修改的 Transformer 架构,以减少训练复杂度。最终输出由路由机制管理,确保专家的自适应选择。
image-20241013212825134

3.2.1 序列为中心的建模

序列为中心的建模是时空任务的经典方法。基于 Transformer 架构并结合 MOE 结构,我们设计了三种不同的建模方法:(1)时间注意力专家,(2)时空注意力专家,(3)记忆注意力专家。为了便于解释,我们定义经典的多头自注意力(MSA)计算过程(Vaswani 等, 2017),如下所示:给定输入 X d a t a ∈ R N × F X_{data} \in \mathbb{R}^{N \times F} XdataRN×F,注意力结果计算为 X o u t = M S A ( X d a t a , X d a t a , X d a t a ) X_{out} = MSA(X_{data}, X_{data}, X_{data}) Xout=MSA(Xdata,Xdata,Xdata)。MSA 的公式如下:

Q = X i n W Q , K = X i n W K , V = X i n W V , Q = X_{in} W_Q, \quad K = X_{in} W_K, \quad V = X_{in} W_V, Q=XinWQ,K=XinWK,V=XinWV,

M S A ( X i n , X i n , X i n ) = s o f t m a x ( X i n W Q ( X i n W K ) T d ) X i n W V , MSA(X_{in}, X_{in}, X_{in}) = softmax\left( \frac{X_{in} W_Q (X_{in} W_K)^T}{\sqrt{d}} \right) X_{in} W_V, MSA(Xin,Xin,Xin)=softmax(d XinWQ(XinWK)T)Xin<

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

holdoulu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值