如何构建基于图的深度学习架构在交通领域: 综述
摘要
近年来,为了解决交通领域中的复杂挑战(例如空间 依赖性和时间依赖性),研究人员提出了各种深度学习架构, 并取得了令人满意的性能。这些架构由多种深度学习技术组合 而成,以应对交通任务中的各类挑战。传统上,卷积神经网络 (CNN)通过将交通网络分解为网格来建模空间依赖性。然而, 许多交通网络本质上是图结构的。为了更充分地利用此类空间 信息,将其从数学上形式化为图更为合适。近年来,已开发出 多种新型深度学习技术用于处理图数据,称为图神经网络( GNN)。越来越多的研究工作结合GNN与其他深度学习技术, 构建能够应对复杂交通任务中多种挑战的架构,其中GNN负责 提取交通网络中的空间相关性。这些基于图的架构已实现了最 先进的性能。为了全面清晰地呈现这一新兴趋势,本综述系统 地考察了在众多交通应用中使用的各种基于图的深度学习架构。 我们首先提供基于图建模交通问题的指导原则,并介绍如何从 多种类型的交通数据集中构建图。然后,我们将这些基于图的 架构进行分解,讨论其共有的深度学习技术,阐明每种技术在 交通任务中的具体应用方式。此外,我们还总结了一些常见的 交通挑战及针对每个挑战的基于图的深度学习解决方案。最后, 我们提供了该快速发展的领域的基准数据集、开源代码以及未 来研究方向。
I. 引言
随着城市化进程的加速,大量人口迅速向城市 聚集。在许多城市,尤其是发展中国家的城市,私家车数 量的快速增长和公共交通服务需求的不断上升,给现有的 交通系统带来了巨大压力。频繁的交通拥堵、严重的交通 事故和长时间通勤等交通问题,严重降低了城市的运行效 率,恶化了乘客的出行体验。为应对这些挑战,许多城市 致力于发展智能交通系统(ITS),以提供高效的交通管理、 精确的交通资源配置和高质量的交通服务。该系统能够减 少交通事故、缓解交通拥堵,并保障公共交通安全。
要构建使城市智能化的智能交通系统,主要有两个不 可或缺的组成部分,即智能基础设施和先进算法。
一方面,随着对交通基础设施投资的不断增加,越来 越多的交通设备和系统被部署,包括环形检测器、探针、 道路网络摄像头、出租车或公交车中的GPS、地铁和公交 车上的智能卡、自动收费系统以及在线叫车系统。这些基 础设施全天候产生大量异构数据,包括数值数据(例如 GPS轨迹、交通测量数据)、图像/视频数据(例如车辆 图像)和文本数据(例如事件报告)。这些交通数据体量 巨大、结构复杂,蕴含着复杂的交通模式(例如时空依赖 性、高度非线性、复杂动态性),迫切需要利用更智能且 强大的方法来处理此类交通数据。
另一方面,在交通领域,研究人员已经见证了算法从 统计方法,到机器学习模型,再到最近的深度学习方法的 演变。在早期阶段,包括自回归积分滑动平均模型及其变 体[1],[2],向量自回归模型[3],卡尔曼滤波[4]在内的统 计方法较为流行,因为它们具有坚实且广泛接受的数学基 础。然而,这些方法的线性和平稳性假设与交通数据的高 度非线性和动态性相违背,导致性能较差 实际性能。传统的机器学习方法,如支持向量机[5], K近 邻[6] ,能够建模非线性并提取交通数据中更复杂的相关 性。然而,这些模型的浅层架构、人工特征选择以及分离 式学习在大数据场景下被认为不够理想[7]。
深度学习在计算机视觉、自然语言处理等多个领域的 突破,引起了交通行业和研究界的关注。深度学习技术通 过从原始交通数据中进行端到端学习,克服了手工特征工 程的局限。理论上,深度学习技术具有强大的能力来逼近 任何复杂函数,从而可以在各种交通任务中建模更复杂的 模式。近年来,由于计算能力(例如GPU)的提升以及充 足的交通数据[7],,基于深度学习的技术已被广泛应用于 各类交通应用中,并取得了最先进的性能。基于循环神经 网络(RNNs)和卷积神经网络(CNNs)的架构曾被广泛 用于提取时空依赖性。在这些架构中,RNN或其变体被用 来提取交通数据中的时间相关性[8],而卷积神经网络则用 于捕捉基于网格的交通网络中的空间相关性[9]。然而,许 多交通网络本质上是图结构的,例如道路网络[10]和地铁 网络。在卷积神经网络中学到的空间特征并不适合最优地 表示基于图的交通网络。尽管一些先前的研究已从图的角 度分析了交通问题[11],[12],,但这些传统方法在处理大 数据和应对交通网络中复杂的相关性方面仍不够强大。
最近,许多研究人员将深度学习方法扩展到图数据上, 以利用图结构信息[13],并提出了一类新的神经网络,称 为图神经网络(GNNs)[14],[15],[16],,旨在解决与图 相关的应用问题。GNNs 已成为包括计算机视觉[17],、 自然语言处理[18],、生物学[19],、金融[20],、推荐系 统[21]在内的许多领域的最先进方法。由于许多交通数据 具有图结构,许多现有工作将 GNNs 融入深度学习架构中 以捕捉空间依赖性。最近的研究表明,这类基于 GNNs 的 架构相比基于卷积神经网络的架构能够实现更好的性能, 因为大多数交通网络本质上是图结构的,而 GNNs 能更准 确地提取空间依赖性。此外,某些任务本质上要求研究人 员基于图进行预测,例如在具有不规则形状的交通网络中 的预测。在过去几年中已经产生了大量相关研究,更多研 究正在进行中。在这种情况下,对交通领域中这些基于图 的深度学习架构进行全面的文献综述显得尤为及时,这正 是我们的工作。
据我们所知,我们是首次在交通领域对基于图的深度学习工 作进行全面综述的研究。需要注意的是,我们所回顾的一些工作 实际上使用类似的技术处理类似的交通问题。我们的工作 可以帮助即将进入该领域的研究人员避免重复性工作,并专 注于新解决方案。此外,本综述提供的实用且清晰的指导使 参与者能够快速将这些新兴方法应用于实际交通任务中。
总之,本文的主要贡献如下:
- 我们系统地概述了交通领域中的图问题、相关研究方向、挑战以及交通领域的技术, 这可以帮助相关研究人员定位或扩展他们的研究。
- 我们总结了关于各种交通问题的通用公式,并提供了从几 种典型的原始交通数据集构建图的具体指导。这种全面 的总结非常实用,可以加速基于图的方法在交通领域的 应用。
- 我们对图结构交通研究中广泛使用的典型深度学习技 术进行了全面综述,详细阐述了这些技术在特定交通任 务中的理论方面、优势、局限性及变体,以期启发后续 研究者开发出更多新颖模型。
- 我们讨论了大多数基于图的交通任务所面临的共同挑战。 针对每个挑战,我们总结了多种基于深度学习的解决方 案,并进行了必要的比较,为交通任务中的模型选择提 供了有用的建议。
- 我们收集了相关论文中的基准数据集和开源代码,以促 进交通领域的基线实验。最后,我们提出了一些未来研 究方向。
本文的其余部分组织如下。第二节介绍了交通领域的 一些综述以及关于图神经网络的一些回顾。第三节简要概 述了若干交通问题及其对应的研究方向、挑战和解决方案。 第四节总结了交通问题的通用公式以及从交通数据集构建 图的方法。第五节分析了图神经网络及其他深度学习技术 的功能、优势与缺陷,并探讨了在特定交通任务中创建这 些技术新变体的技巧。第六节讨论了交通领域的常见挑战 及相应的多种解决方案。第七节提供了我们所研究论文中 数据集和开放代码的超链接。第八节展望了未来的研究方 向。第九节对全文进行了总结。
II. 相关综述
已有一些综述从不同角度总结了交通任务中算法的发 展过程。Karlaftis et al. [22]讨论了统计方法与神经网 络之间的差异与相似之处,以促进这两个领域之间的相互 理解。Vlahogianni et al.[23]回顾了短时交通预测中的 十大挑战,这些挑战源于智能交通系统应用不断变化的需 求。Xie et al.[24]对城市流量预测的方法进行了全面综述。 Liu et al.[7]将基于深度学习的城市大数据融合方法分为三 类,即基于深度学习输出的融合, 基于深度学习输入的融合和基于深度学习双阶段的融合。 [25],[26]中讨论了交通网络表示、交通流预测、交通信号 控制、自动车辆检测等热门主题的深度学习方法。Veres et al.[27]和Chen et al.[28]对各类交通主题中的新兴深 度学习模型进行了类似但更详细的分析。王帅 et al. [29] 从时空视角出发,总结了交通领域及其他领域的深度学习 技术。然而,这些综述均未考虑图神经网络(GNN)相关 的文献,仅有王帅 et al. [29]提及了图神经网络,但也仅 在一个很短的子章节中涉及。
另一方面,近年来有一些综述对图神经网络(GNNs)在 不同方面的文献进行了总结。Bronstein et al. [30]首次概 述了在非欧几里得空间(例如图数据)中处理数据的深度学习 技术。Zhouet al.[31]将图神经网络分为图类型、传播类型 和训练类型。此外,他们将相关应用划分为结构化场景、非结 构化场景和其他场景。Zhanget al. [32]分别介绍了小规模图 和大规模图上的图神经网络。Quan et al.[33]和 Zhang et al.[34]则专注于图神经网络某一分支——图卷积网络( GCN)的研究工作进行综述。然而,这些综述很少介绍图神 经网络在交通场景中的研究工作。吴等人提出[35]的唯一一 篇综述仅用一段文字描述了交通领域中的图神经网络,显然不 足以满足希望探索该领域的人的需求。
总之,目前仍然缺乏一篇系统且详尽的综述来探讨近 年来在交通领域快速发展的基于图的深度学习技术。我们 的工作旨在填补这一空白,并促进交通领域社区对这些新 兴技术的理解。
III. 问题、研究方向和挑战
在本节中,我们简要介绍交通领域的一些背景知识, 包括一些重要的交通问题及相应的研究方向(如图1所示), 以及这些问题下的常见挑战和技术。一方面,我们认为这 种简洁而系统的介绍可以帮助读者快速理解该领域;另一 方面,我们的调研表明,现有基于图的深度学习技术的相 关研究仅涵盖了部分研究方向,这 激励后继研究者将类似技术转移到其他方向。
A. 交通问题
交通领域社区旨在实现的目标包括缓解交通拥堵、满 足出行需求、加强交通管理、确保交通安全以及实现自动 驾驶。每个交通目标下的问题可划分为多个研究方向,且 每个研究方向可服务于多个问题。
1) 交通拥堵 : 交通拥堵[36]是现代城市中最重要且 紧迫的问题之一,会造成严重的时间损失、空气污染和能 源浪费。可以通过提高交通效率[37],[38],来缓解道路 网络上的交通拥堵[39]–[41],,通过交通状态预测控制路 况[42],[43],,通过控制交通信号优化车流[44],[45],, 以及通过预测公共交通系统中的乘客需求来优化客流量[46]。
2) 出行需求 : 出行需求预测指的是从人群角度对出租 车、自行车、地铁和公交车等交通服务的需求。随着在线 叫车平台(如Uber、滴滴)的兴起以及公共交通系统(如 地铁系统和公交系统)的快速发展,出行需求预测对于交 通管理部门、商业部门和个人而言变得越来越重要。对于 相关管理部门,这有助于更好地分配资源,例如在高峰时 段增加地铁班次,向热点区域增派公交车。对于商业部门, 这使其能够更好地管理出租车调度[47],拼车[48],共享单 车服务[49],[50],并最大化其收入。对于个人,这鼓励用 户考虑多种交通方式以减少通勤时间并改善出行体验。
3) 交通安全 : 交通安全是公共安全不可或缺的一部分。 交通事故不仅可能对受害者、车辆和道路基础设施造成损 害,还可能导致交通拥堵并降低道路网络的运行效率。因 此,监测交通事故对于避免财产损失和挽救生命至关重要。 许多研究人员专注于诸如检测交通事件[51],利用社交媒 体数据预测交通事故[52],预测交通事故的伤害严重程度 [53],[54],预测事故预防[55]–[57]等方向。
4) 交通监控 : 如今,监控摄像头已广泛部署于城市道 路中,产生了大量图像和视频[28]。这一发展增强了交通 监控能力,包括交通执法、自动收费[58]和交通监测系 统。交通监控的研究方向包括车牌识别[59],自动车辆检 测[60],行人检测[61]。
5) 自动驾驶 : 近年来,自动驾驶车辆已成为交通领 域研究的热点。许多任务与视觉识别相关。自动驾驶的研 究方向包括车道/车辆 检测[62],行人检测[63],交通标志检测[64]和人/车辆轨 迹预测[65]。
B. 研究方向
我们对交通领域中基于图的深度学习的综述表明,现 有研究主要集中在交通状态预测、出行需求预测和轨迹预 测。少数研究关注车辆行为分类[66],最优动态电子收费 (DETC)方案[58],路径可用性[67],交通信号控制[68]。 据我们所知,交通事件检测和车辆检测尚未从图的角度进 行探索。
1) 交通状态预测 :文献中的交通状态指的是交通流量、 交通速度、行程时间、交通密度等。交通流量预测(TFP) [69],[70],交通速度预测(TSP)[71],[72],行程时间预测 (TTP)[73]–[75]是交通状态预测的热门分支,已引起广泛研 究。
2) 出行需求预测 : 出行需求预测旨在估计未来需要交 通服务的用户数量。它可以分为两类,即区域级需求预测 和起讫点出行需求预测。前者旨在预测城市各区域未来的 出行需求,例如预测城市各区域未来的出租车请求 [76],[77],,或预测地铁系统中的站点级乘客需求[46], [78]–[80],或预测城市各区域的自行车租赁需求[49],[50]。 后者旨在预测从一个区域到另一个区域的出行需求数量, 相比区域级需求预测能提供更丰富的信息,且是一个更具 挑战性且值得探索的研究问题。迄今为止,仅有少数研究 [81]–[83]聚焦于基于起讫点的出行需求预测,这是一个颇 具前景的研究方向。
3) 交通信号控制 : 交通信号控制旨在长期合理地调控 交通信号灯,以减少车辆在道路交叉口的停留时间[26]。 交通信号控制[68]可以优化交通流量,减少交通拥堵和车 辆排放。
4) 交通事件检测 : 重大事件可能导致旅行者致命伤害, 并在道路网络上造成长时间延误。因此,了解事件的主要 原因及其对交通网络的影响,对于现代交通管理系统至关 重要[51],[53],[54]。
5) 人/车辆轨迹预测 : 轨迹预测[65],[84],[85]旨在 预测场景中动态代理未来的位置。准确的人/车辆轨迹预测 对于自动驾驶和交通监控等下游任务具有重要意义[86]。 例如,准确的行人轨迹预测可以帮助控制器在危险环境中 控制前方车辆[87]。它还可以使交通监控系统能够识别可 疑活动[88]。
C. 挑战与技术概述
尽管交通问题及其相关研究方向各不相同,但它们大多 面临相同的挑战,例如空间依赖性、时间依赖性和外部因素。
1) 时空依赖性 : 交通数据中存在复杂的时空依赖性, 这会影响交通任务中的预测。例如,在预测某个区域的交 通拥堵时,该区域之前的交通状况及其周围区域的交通状 况是预测的重要因素[36],[39],[40]。在车辆轨迹预测中, 周围车辆的随机行为以及自身轨迹的历史信息会影响预测 性能[89]。在预测某个区域的网约车需求时,该区域之前 的订单以及其他具有相似功能区域的订单对预测至关重要 [90]。在预测交通信号时,需要考虑多个交叉路口的几何 特征以及之前的交通流量[68]。
2) 外部因素 : 除了时空数据外,某些类型的数据在交 通任务中也起着重要作用,被称为外部因素,例如节假日、 天气状况(如降雨、温度、空气质量)、极端事件[91] 和交通事件(如事故时间、事故类型)[92]。外部因素对 交通状况的影响在日常生活中显而易见。一场暴雨可能会 影响交通量;一场大型音乐会或足球比赛会导致交通聚集, 影响周边的交通状况。
为应对上述挑战,已提出了多种深度学习技术。本文 聚焦于交通领域的基于图的深度学习架构。在这些基于图 的深度学习框架中,图神经网络(GNNs)通常被用于建 模交通网络中的空间依赖性,循环神经网络(RNNs)和 时间卷积网络(TCN)通常被用于建模交通数据中的时间 依赖性,RNNs和多层感知机(MLPs)通常被用于处理外 部因素,序列到序列(Seq2Seq)模型通常被用于实现多 步交通预测。这些技术与其他技巧(如门控机制、注意力 机制)有机结合,以提高预测精度。
本文旨在为读者提供如何构建基于图的深度学习架构 的指导,并调研了大量采用基于图的深度学习解决方案的 交通研究。在接下来的章节中,我们首先介绍一种常见的 交通问题建模方法,并详细说明如何从各种类型的交通数 据构建交通图。然后,我们从两个视角阐明挑战与技术之 间的相关性(如图2所示),即技术视角和挑战视角。在技 术视角下,我们介绍几种常用的技术,并解释它们如何应 对交通任务中的挑战;在挑战视角下,我们详细阐述每一 项挑战,并总结能够应对该挑战的相关技术。总之,我们 希望基于图的视角,为利用多种深度学习技术解决交通挑 战提供洞见。
IV. 问题表述与图构建
在我们研究的基于图的深度学习交通文献中,大多数任 务(超过80%)属于 时空预测问题,特别是交通状态预测和出行需求预测。在 本节中,我们首先列出常用的符号。然后我们总结了交通 领域中基于图的时空预测的通用公式。我们提供了从各种 交通数据集构建图的详细信息。我们还讨论了邻接矩阵的 多种定义,邻接矩阵表示基于图的交通网络的拓扑结构, 是基于图的解决方案的关键元素。
A. 符号说明
在本节中,我们列出了一些常用的符号,包括与图相 关的元素、变量、参数(超参数或可训练的)、激活函数 以及操作。变量包括输入变量{x, X, x, X, X}和输出变量 {y, Y, y, Y, Y}。这些变量可分为空间变量、时间变量和 时空变量。空间变量仅与空间属性相关,时间变量仅与时 间属性相关,而时空变量则与空间属性和时间属性均相关。
B. 基于图的时空预测
据我们所知,大多数现有的基于图的深度学习交通研 究可归类为空‐时预测,因为大多数交通数据集同时具有空 间属性和时间属性。尽管在数学符号和表示方法上有所不 同,这些研究在形式化其预测问题时非常相似。我们总结 了这些研究工作,以提供交通领域中基于图的时空问题的 通用公式。
交通网络被表示为一个图 G=(V,E,A),根据具体任 务可以是加权[73],[93],[69]或非加权[67],[94],[95],有 向[67],[96],[97]或无向[70],[98],。V是节点的集合, | V| =N表示图中的N个节点。每个节点代表一个交通对象, 可以是一个传感器[70],[71],[99],一条道路段 表I 本文所用符号 [93],[100],[101],一个道路交叉口[69],[73],[96]。边集E是表示节 点之间连接关系的边的集合。 A=(ai j)N×N ∈ R N×N是包含交通网络拓扑信息的邻 接矩阵,对交通预测具有重要价值。矩阵ai j中的元素A表 示节点间的接近程度,在不同应用中有所不同,可以是二 进制值0或 1[70],[94],[95]。
具体而言,0 表示节点i和节点j之间无边,而 1 表示这两 个节点之间存在一条边。它也可以是表示节点间某种关系 的浮点数值,例如两个传感器之间的道路距离[93],[102], [71],[103],[97]。
Xt=[X1 t,···, Xi t,···, XN t] ∈ RN×FI是图在时间t的全局特征矩 阵。Xi t ∈ RFI表示在时间t具有FI个特征的节点i。这些特征通常是 交通指标,如交通流量 [97],[98], [71], [100],[96], [90],[102], [78], 、交通速 度或网约车订单客流量[79]。通常,连续型指标会在数据预处理阶段 进行归一化处理。
给定整个交通网络在过去P个时间片的历史指标,记为 X=[X1,···, Xt,···, XP] ∈ R P×N×FI ,交 通领域的时空预测问题旨在预测未来Q个时间片的未来交通指标, 记为 Y=[Y1,···, Yt,···, YQ] ∈ RQ× N×FO Yt ∈ R N×FO , 其中表示在时间t具有FO特征的输出图。该问题(如图3所示) 可表述如下: Y= f(X; G) (1)
一些研究预测未来的多个交通指标(即FO> 1),而 另一些研究则预测单个交通指标(即FO= 1),例如交 通速度[96],[100], rail‐hide订单[90],[102]。一些研究 仅考虑单步预测[76],[104],[58],,即预测下一个时间步 的交通状况和Q= 1。但为单步预测设计的模型无法直接 应用于多步预测,因为这些模型在训练阶段是通过减少下 一步的误差进行优化的,而非后续时间步[77]。许多研究 专注于多步预测(即Q> 1)[43],[105],[106]。根据 我们的调查,生成多步输出的主要技术有三种:全连接层、 序列到序列、扩张技术。全连接(FC)层作为输出层是最 简单的技术,用于获得期望的输出形状[70],[71], [94],[107],[92],[108]。一些研究采用序列到序列( Seq2Seq)架构并结合基于RNN的解码器,通过多步递归 生成输出[99],[109],[105],[110],[97],[111]。扩张技术被 用来获得期望的输出长度[103],[106]。此外,一些研究 不仅考虑交通指标,还考虑外部因素(例如时间属性、天 气)[71],[113],[92],[114]。因此,问题的建模 成为: Y= f(X, E; G) (2) 其中 E是外部因素。
C. 从交通数据集构建图
将交通网络建模为图对于任何旨在利用基于图的深度 学习架构解决交通问题的工作都至关重要。用于预测的交 通图G通常由四个部分组成,即节点V、节点特征(特征 矩阵 Xt)、边E和边权重aij。需要注意的是,边和边权重 可以用邻接矩阵A=(aij)N×N表示。节点和节点特征可以 从交通数据集中构建。邻接矩阵的构建不仅依赖于交通数 据集,还依赖于对节点关系的假设,这种关系可以是静态 的或动态的。我们首先介绍如何从各种类型的交通数据集 中构建节点和节点特征,然后系统地介绍常用的邻接矩阵。
1) 节点和节点特征构建 :许多研究在图构建方面存在 差异,这是由于它们收集的交通数据集不同。我们根据交 通基础设施将这些数据集分为四类:道路网络上部署的传 感器收集的数据[70],[71],[72],、车辆GPS轨迹[69],[112],[96],、网约车系统的订单[77],[102],[114],、 地铁系统的交易记录[78],[79]或公交系统[112]。针对 每一类别,我们描述数据集并解释节点V和特征矩阵 Xt的 构建方法。
传感器数据集 : 在大都市(如北京[93],加利福尼亚 [72],洛杉矶[71],纽约[100],费城[107],西雅图[95], 厦门[99],和华盛顿[107])的道路网络中,交通测量数据 (例如交通速度)通常由传感器(如环形检测器、探针) 在较短的时间间隔内采集。传感器数据集是现有研究中最 常见的数据集,尤其是来自加利福尼亚的PEMS数据集。 通常,道路网络包含传感器、道路路段等交通对象。 在[70],[71],[97]中构建了传感器图(如图4所示), 其中每个传感器表示一个节点,该节点的特征由其对应传 感器采集的交通测量数据构成。 在[93],[100],[107]中构建了道路路段图(如图4所示), 其中每个道路路段表示一个节点,该节点的特征由其对应 道路路段上所有传感器记录的平均交通流量测量值(例如 交通速度)构成。
GPS Datasets : GPS轨迹数据集通常由城市中大量出租 车在一段时间内生成,例如北京[69],成都[69],深圳[94], 科隆[96],和芝加哥[101]。每辆出租车每天都会产生大量 的包含时间、位置和速度信息的GPS记录。每条GPS记录 都会被匹配到城市道路图上最近的道路。所有道路通过道 路交叉口被划分为多个道路路段。 道路路段图(如图4所示)在[94],[101]中构建,其中 道路路段表示节点
在传感器图中,传感器表示节点,道路上同一侧的相邻传感器之间存在一条边。b) 在路段图中,道路路段表示节点,相连的 两个路段之间存在一条边。c) 在道路交叉口图中,道路交叉口表示节点,由道路路段连接的两个道路交叉口之间存在一条边。大多数研究将边的方向视为交通流方 向 [71],[99],[67],[97],[69],[112], [70],[103],[95], [96],[101],而一些研究 忽略方向并构建无向图。)
该节点的特征是其对应道路路段上所有GPS点记录的平均交通流 量测量值。 道路交叉口图(如图4所示)在[69],[73],[96]中构建, 其中道路交叉口表示一个节点,该节点的特征为通过该节 点的交通测量数据的总和。
网约车数据集 : 这些数据集记录了北京[90],[102], 成都[102],和上海[90],曼哈顿,纽约[100]等城市在一 段时间内的汽车/出租车/自行车需求订单。目标城市结合 OpenStreetMap被划分为等尺寸基于网格的区域(如图 5所示)。每个区域被定义为图中的一个节点。每个节点的 特征是该区域在给定时间间隔内的订单数量。
交易数据集 : 这些数据集由公共交通网络(如地铁 网络和公交网络)中部署的自动收费系统(AFC)收集。 在[78],[79],[112]中构建了地铁图。地铁系统中的每个车 站被视为一个节点。车站的特征通常包含在给定时间间隔 内基于地铁AFC系统收集的交易记录所统计的从该车站出 发的乘客数量和到达该车站的乘客数量,这些记录会记录 每位乘客进入和离开地铁系统的时间。 公交图在[112]中构建。每个公交车站被视为一个节 点。公交车站的特征通常包含在给定 时间间隔内车站的发车乘客数量,但不包含到达乘客数量, 因为大多数公交自动收费系统仅记录每位乘客的上车记录。
2) 邻接矩阵构建 : 邻接矩阵A=(aij) N×N ∈ R N×N是捕捉对预测有价值的空间依赖性的关键。 元素aij(非加权或加权)表示节点之间的异质成对关系。 然而,在不同的交通场景中,节点关系存在不同的假设, 基于这些假设,邻接矩阵可以被设计为不同的形式,例如 固定矩阵、动态矩阵、演化矩阵。
固定矩阵 : 许多研究假设节点之间的相关性是固定的, 不会随时间变化。因此,设计了一个在整个实验过程中保 持不变的固定矩阵。研究人员设计了各种固定的邻接矩阵, 以捕捉交通图中节点之间不同类型的预定义相关性,如功 能相似性和交通连通性[90],语义连接[102],时间相似性 [72]。在此,我们介绍几种常用的邻接矩阵。
连接矩阵 用于衡量节点之间的连接性。矩阵中的元素 值定义为1(连接)或0(断开)[70],[107],[94],[95]。
距离矩阵 通过几何距离来衡量节点之间的接近程度。 矩阵元素值被定义为节点之间距离的函数[86]。例如,一 些研究[69],[73],[98],[101],[77],[96]使用了阈值
高斯核来定义aij如下: aij= ⎧⎨⎨⎩ exp − d2ij σ 2 , i ≠j and dij ≥ ε 0, i=j or dij< ε (3) 其中dij表示节点i与节点j之间的距离。超参数 σ 2和 ε是用 于控制矩阵A分布和稀疏性的阈值。
功能相似性矩阵 用于衡量两个节点在功能上是否相似 (例如,它们都是商业区)。相应的功能相似性图如图5 所示。该方法假设具有相似功能的区域可能具有相似的需 求模式[90]。边是在具有相似周边兴趣点(POI)的区域 之间构建的。
交通连通性矩阵 用于衡量地理上遥远但可通过高速公 路、公路或地铁便捷到达的区域之间的关联性。相应的交 通连通性图如图5所示。它们之间应存在边[90]。
动态矩阵 :一些研究认为,由于有缺陷的先验知识或 不完整数据[73],预定义矩阵不一定能反映节点间的真实 依赖关系。因此提出了一种新的自适应矩阵,并通过数据 进行学习。[73],[103],[100] 中的实验已证明,自适应矩 阵能够在某些交通任务中更精确地捕捉隐藏的空间依赖性。
演化矩阵 : 在某些场景中,由于一些边可能变得不 可用(例如道路拥堵或封闭),并在缓解拥堵后再次可用, 因此图结构会随时间演化。模型引入了演化拓扑结构[67],[115] 以捕捉这种动态空间变化。
五、深度学习技术视角
我们总结了现有交通文献中基于图的深度学习架构, 发现其中大多数由图神经网络(GNNs)和其他模块组成, 例如循环神经网络(RNN)、时间卷积网络(TCN)、序 列到序列(Seq2Seq)模型、生成对抗网络(GAN)(如 表II所示)。正是图神经网络与其他深度学习技术的协同作 用,在许多交通场景中实现了最先进的性能。本节旨在介 绍这些技术在交通任务中的功能、优势、缺陷及其变体, 以帮助参与者理解如何在交通领域中利用这些深度学习技 术。
A. 图神经网络(GNNs)
在过去的几年中,受深度学习方法(例如卷积神经网络、 循环神经网络)巨大成功的推动,人们越来越关注将神经网 络推广到任意结构的图上,这类网络被归类为图神经网络 (GNNs)。在早期阶段,关于图神经网络的研究可以分为 受循环神经网络启发的循环图神经网络(RecGNNs)[35]。 随后, 受卷积神经网络(CNNs)巨大成功的启发,许多研究致 力于将CNN卷积扩展到图数据上,这些研究可归类为卷积 图神经网络(ConvGNNs)[35]。近年来还发展了图神经 网络(GNNs)的其他分支,例如图自编码器(GAEs) [122]和图注意力网络(GATs)[123]。根据我们的调查, 目前大多数交通研究集中在卷积图神经网络(
ConvGNNs),仅有少数研究[120]采用了GNNs的其他分 支。此外,卷积图神经网络(ConvGNNs)可分为两大主 流方向:基于谱理论构建图卷积的谱方法,以及基于节点 间空间关系定义图卷积的空间方法[124]。最近涌现出许多 新颖的空间方法卷积,其中扩散卷积是一种流行的空间方 法图卷积,它将图卷积视为一种扩散过程。 根据我们的调研,大多数现有的交通研究采用谱图卷 积或扩散图卷积。尽管也存在其他新型卷积[69],但它 们在交通领域的应用相对较少。因此,本节重点介绍交通 领域中的谱图卷积(SGC)和扩散图卷积(DGC)。本文 中,我们将采用谱图卷积的图神经网络称为SGCN,将采 用扩散图卷积的图神经网络称为DGCN。需要注意的是, SGC适用于无向图,而DGC可应用于有向图和无向图。此 外,SGC和DGC均旨在通过特征聚合和非线性变换为图中 的每个节点生成新的特征表示(如图6所示)。
1) 谱图卷积 :在谱理论中,图由其对应的归一化拉普 拉斯矩阵 L=IN−D − 1 2AD − 1 2 ∈ R N×N 表示。实对称矩阵 L 可通过特征分解对角化为 L= UUT ,其中 U ∈ R N×N 是特征向量矩阵, ∈ R N×N 是对角特征值矩 阵。由于 U 也是一个正交矩阵,Shuman et al.[125] 将 其用作图傅里叶基,定义图信号 x ∈ R N 的图傅里叶变换 为 ˆx= UTx,其逆变换为 x= Uˆx。 Bruna 等[126]尝试在谱域中构建卷积神经网络的类似 结构,并将谱卷积定义为y= ∗G x= UU Tx,即先将 x变换到谱域,通过一个对角卷积核 = diag(θ0,…, θN−1) ∈ R N×N调整其幅度,然后进行逆傅里叶变换得到空间域中 的最终结果y。尽管这种卷积在理论上是可行的,但由于与 U相乘的计算复杂度为 O(N 2 ),且对于大规模图而言,拉普 拉斯矩阵L的特征分解代价过高,因此计算开销较大。此外, 该方法使用包含N个参数的卷积核考虑了所有节点,无法提 取空间局部性。 为了避免这些局限性,Defferrard et al.[127]通过将卷积 核 = K − 1 k=0 θ k k 限 制为特征值矩阵的多项式,并使K决定从中心节点出发的卷积最 大半径,从而实现了卷积的局部化并减少了其参数。因此,该卷 积可重写为 ∗Gx=K − 1 k= 0 θ k U k U T x=K − 1 k= 0 θ k L k x。
此外,Defferrard 等人 [127] 采用切比雪夫多项式 T k ≈ K−1 k=0 θk k ˜ ˜= 2 λ max − N λmax (x) 来逼 近 Lk,从而得到 ∗G x T ( L)x,其中经过重新缩放的 L 为 L I, 是 L 的最大特征值,且 Tk(x) = 2x Tk−1(x)−Tk−2(x),T0(x)= 1, T1(x)= x [128]。通过递归计算 Tk(x),该 K局部化卷积 的复杂度可 降低至 O(K|边集E|),其中 |边集E| 表示边的数量。 基于[ 127 ] ,Kipf等人[ 129 ]通过限制K ˜图卷积并结合T= 2(L) 0 ,= 1 T˜ ˜ ˜ ˜ (L) L,简化了谱域 1 = θ 0 = 0 1 +θ 1 ˜ ˜ − N λ max = 2。他们得到 ∗ G x ≈ θ 0 T (L)x + θ 1 T (L)x x Lx。注意到L = 2 λ max L I,于是设,得到 ∗ G x ≈ θ 0 x + θ 1( L −I N)x。由于L =I N − ≈ θ 0 N = − − θ 1 − 1 2 − 1 2 D− 1 2 AD− 1 2 且L I D− 1 2 AD− 1 2 ,因此得到 ∗G x ≈ θ 0 x (D AD )x。进一步地,他们通过设置 θ= θ 0 = − θ 1 来减少参数数量,以应对过拟合问题。 得到 ∗Gx ≈ θ(IN+D − 1 2AD − 1 2)x。他们定义了 ˜A=A+IN,并采用重 归一化技巧得到 y= ∗Gx ≈ θ ˜ − 1 2 ˜ ˜ − 1 2 ˜ ˜ DA Dx,其中 ˜ D 是 ˜A 的度矩阵。最后,Kipf et al.[129] 提出了如下谱图卷积层: Y j= ρ(j ∗G X)= ρ( F i=I1 θi,j D˜− 1 2 A˜ D˜− 1 2 Xi), 1 ≤j ≤ FO Y= ρ( D˜ − 1 2 A˜ D˜ − 1 2 X W) (4) 这里,X ∈ R N×FI是具有FI个特征的层输入,Xi ∈ R N是 其第ith个特征。Y ∈ R N×FO是具有FO个特征的层输出, Y j ∈ R N是其第j th个特征。W ∈ R F I × F O是一个可训练参数。 ρ(·)是激活函数。该层可以聚合1跳邻居的信息。感受野 通过堆叠多个图卷积层[43],可以扩展邻域的范围。
2) 扩散图卷积 :谱图卷积需要对称的拉普拉斯矩阵来 实现特征分解,对于具有非对称拉普拉斯矩阵的有向图则 不再适用。扩散卷积源于图扩散,且对图结构无限制。图 扩散[130]可表示为转移矩阵的幂级数,给出每一步从一 个节点跳转到另一个节点的概率。经过多步之后,该马尔 可夫过程收敛至一个平稳分布P= ∞ k=0 α(1 − α)k(DO −1 A)k,其中DO −1A为转移矩阵, α ∈[0, 1]为重启概率, k为扩散步数。在实际应用中,采用有限K步截断的扩散 过程,并为每一步分配一个可训练的权重 θ。基于K步扩 散过程,Li et al.[109]将扩散图卷积定义为: y= ∗G x= K−1 k=0 (θk,1(DO −1A) k+ θk,2(DI −1AT ) k )x(5) 这里,DO −1A表示转移矩阵,DI −1AT是其转置。这种双 向扩散使得该操作能够在有向图上捕获空间相关性[109]。 与谱图卷积层类似,扩散图卷积层的构建如下: Yj= ρ( K−1 k=0 i=FI1 (θk,1,i,j(DO −1A) k+ θk,2,i,j(DI −1AT ) k )Xi) Y= ρ( K−1 k=0 (DO −1A) kX Wk1+(DI −1AT ) kX Wk2) (6) 其中 1 ≤j ≤ FO,参数Wk1,Wk2 ∈ R F I×F O是可训练的。
3) 图神经网络在交通领域的应用 :许多交通研究,如 地铁网络和道路网络,天然具有图结构(见第四节)。与 将交通网络建模为网格的先前研究相比,将交通网络建模 为图的研究能够充分利 用空间信息。 目前,许多研究工作直接在交通图上采用卷积操作来 捕捉交通数据复杂的空间依赖性。其中大多数采用谱图卷 积(SGC),而一些则采用扩散图卷积 (DGC)[101],[103],[109],[113],[97],[119]。还有一些其 他的基于图的深度学习技术,例如图注意力网络(GAT) [99],[105],[108],[120],、图上的张量分解与补全[79],, 但相关研究较少,可能成为未来的研究方向。 SGC与DGC之间的关键区别在于它们所使用的矩阵, 这些矩阵代表了对交通网络中空间相关性的不同假设。 SGC中的邻接矩阵表明,图中的中心节点与其相邻节点之 间的相关性比与较远节点的相关性更强[71],[90]。DGC 中的状态转移矩阵则表明,空间依赖性是随机的,取决于 重启概率,并且具有动态性而非固定不变。交通流量与交 通图上的扩散过程相关,以建模其动态空间相关性。此外, DGC中的双向扩散使模型能够更灵活地捕捉来自上游和下 游交通的影响[109]。总之,DGC比SGC更为复杂。 DGC可用于对称或非对称交通网络图,而SGC仅能用于处 理对称交通图。 现有的图卷积理论主要应用于二维信号 X ∈ R N×FI。 然而,具有空间和时间属性的交通数据通常是三维信号 X ∈ R P×N×FI。卷积操作需要进一步推广到三维信号。对 三维信号的每个时间步 X并行地施加具有相同卷积核的 等效卷积操作(例如 SGC, DGC)[71],[93],[112],[116]。 为了提高图卷积在交通任务中的性能,许多研究开发了SGC的各 种变体。 Guo etal.[70]重新定义了带有注意力机制的SGC,以自适应地捕捉交通网络 中的动态相关性: ∗ 1 ρ k = 2 3 4 T+ ∈ R N×N Gx ≈ K − 1 k= 0 θ k( T( ˜L)S)x,其中SW((XW)W(WX)b)为空间注意力。 Yu 等[72]通过在图上扫描K阶邻居和在时间轴上扫描 Kt个邻居(无填充),将SGC推广到空间和时间维度。公 式如下: Yt,j= ρ( K t −1 t =0 K−1 k=0 F I i=1 θ j ,t ,k,i L˜ kXt−t ,i) (7) 其中X t−t , i ∈ R N 是输入 X在时间t − t 的第i th 个特征, Y t Y , j ∈ R N 是输出在时间t的第j th 个 特征。
Zhao et al. [95] K FFR ∗= ˜ ˜ K 将SGC修 改为G x(W A)x,其中A是K跳邻接矩阵,FFR是表示道路网络物 理特性的矩阵。一些研究人员[111],[121]在此基础上进行了改进, 重新定义了 ∗G x=(W Bi(AK+ IN))x,其中Bi(.)是一个 将矩阵中每个非零元素裁剪为1的函数。 Sun et al.[117]将SGC中的邻接矩阵A修改为S= A ω,以将地理空间位置信息融入模型,其中 ω是通过 阈值高斯核加权函数计算得到的矩阵。该层构造为Y= ρ ( ˜Q− 1 2X W),其中 ˜Q是˜S= S+IN的度矩阵。 Qiu et al.[58]设计了一种新的基于边的SGC,用于 道路网络以提取边特征的时空相关性。特征矩阵X和邻接 矩阵A均定义在边上,而非节点上。
B. 循环神经 网络
循环神经网络(RNN)是一种主要用于检测序列数据 中模式的神经网络架构[133]。在许多交通任务中收集的交 通数据均为时间序列数据,因此循环神经网络常被用于这 些交通任务中以捕捉交通数据中的时间依赖性。在本小节 中,我们介绍三种经典的循环神经网络模型(即RNN、 LSTM、GRU)及其相互之间的相关性,为参与者针对特 定交通问题选择合适的模型提供理论依据。
1) RNN :与经典的前馈神经网络(FNN)类似,一 个简单的循环神经网络(RNN)[134]包含三层,即输入 层、隐藏层、输出层[135]。RNN与FNN的不同之处在于 隐藏层。在FNN中,隐藏层仅向前传递信息至输出层;而 在RNN中,它还会将信息传回自身,形成一个循环[133]。 因此,RNN中的隐藏层被称为循环隐藏层。这种循环机 制能够保留历史信息,使RNN能够处理时间序列数据。 假设循环神经网络的输入层、隐藏层和输出层分别有FI、 FH、FO个单元。输入层接收时间序列数据X=[X1,···,X P] ∈ R P×FI。对于在时间t的每个元素Xt ∈ R F I,隐藏层将其 转换为Ht ∈ R F H,输出层将Ht映射到 Y t ∈ R F O。注意,隐 藏层不仅以X t作为输入,还以 H t−1作为输入。这种循环机制 使循环神经网络能够记忆过去的信息(如图7所示)。其数 学 隐藏层和输出层的符号表示如下: Ht= tanh([Ht−1, Xt]· Wh+ bh) Yt= ρ(Ht · Wy+ by) (8) 其中Wh ∈ R(FI+FH)×FH、Wy ∈ RFH×FO、bh ∈ RFH、 by ∈ RFO为可训练参数。t= 1,···,P和P为输入序列长度。 H0使用较小的非零元素进行初始化,这可以提高网络的 整体性能和稳定性[136]。 总之,循环神经网络将序列数据作为输入,并生成另一 个相同长度的序列:[X1,···, XP] R−N→N[Y1,···, YP]。注意, 我们可以通过堆叠多个循环隐藏层来加深循环神经网络。
2) 长短期记忆网络 :尽管隐藏状态使循环神经网络能 够记忆过去时间步的输入信息,但它也引入了对(可能非 常长的)序列的矩阵乘法。矩阵乘法中的较小值会导致梯 度在每个时间步减小,从而最终导致梯度消失现象。相反, 较大的值则会引起梯度爆炸问题[137]。梯度消失或梯度 爆炸实际上阻碍了循环神经网络学习数据中长期序列依赖 的能力[135]。 为了克服这一障碍,提出了长短期记忆网络( LSTM)[138]以捕捉序列学习中的长期依赖性。与R NN中的隐藏层相比,LSTM隐藏层额外包含四个部分,即 一个记忆单元、输入门、遗忘门和输出门。这三个门的取 值范围在[0,1]之间,可以控制信息流进入记忆单元,并保 留来自先前时间步的提取的特征。这些简单的改进使得记 忆单元能够尽可能多地存储和读取长期信息。LSTM隐藏 层的数学表示如下: it= σ([Ht−1, Xt]· Wi+ bi) ot= σ([Ht−1, Xt]· Wo+ bo) f t= σ([Ht−1, Xt]· Wf+ bf) Ct= f t Ct−1+it tanh([Ht−1, Xt]· Wc+ bc) Ht= ot tanh(Ct) (9) 其中,it、ot、f t 分别是时间 t 时的输入门、输出门和遗忘门。 Ct 是时间 t 时的记忆单元。
3) GRU :尽管LSTM是避免梯度消失或梯度爆炸问题 的一种可行方案,但其复杂的结构导致更高的内存需求和 更长的训练时间。Chung 等[139]提出了一种简单而强 大的LSTM变体,即门控循环单元(GRU)。LSTM单元 具有三个门,而GRU单元仅有两个门,因此参数更少, 训练时间更短。然而,经验表明,GRU与LSTM同样有效 [139],并被广泛应用于各种任务中。GRU隐藏层的数学 表示如下: rt= σ([Ht−1, Xt]· Wr+ br) ut= σ([Ht−1, Xt]· Wu+ bu) H˜t= tanh(rt [Ht−1, Xt]· Wh+ bh) Ht= ut Ht−1+(1 − ut) H˜t (10) 其中r t是重置门, u t是更新门。
4) 交通领域中的循环神经网络 : 循环神经网络在处理时间序 列数据方面表现出色。由于交通数据具有明显的时间依赖性,通 常利用循环神经网络来捕捉交通数据中的时间相关性。在我们调 研的文献中,仅有Geng et al. [90]使用RNN来捕捉交通数据中 的时间依赖性,而超过一半的研究采用了门控循环单元,部分研 究使用了长短期记忆网络。其原因在于,循环神经网络容易遭遇 严重的梯度消失或梯度爆炸问题,而长短期记忆网络和门控循环 单元能够有效解决这一问题,且门控循环单元还能减少训练时间。 此外,还有许多技巧可以增强循环神经网络对交通领 域复杂时间动态的建模能力,例如注意力机制、门控机制 和残差机制。 例如,Geng et al.[90]将上下文信息(即包含相关 区域信息的SGCN的输出)引入注意力操作中,以建模不 同时间戳观测值之间的相关性: z= Fpool(Xt, SGCN(Xt)) S= σ(W1ReL U(W2z)) Ht= RN N([Ht−1, Xt] S) (11) 其中 Fpool(·) 是一个全局平均池化层,RN N(·) 表示 RNN隐藏层。 Chen et al.[113]通过将外部属性嵌入输入中,考虑 了外部因素的影响。此外,他们通过残差捷径路径将前一 时刻的隐藏状态添加到下一时刻的隐藏状态中,认为这可 以使门控循环单元对交通历史观测中的突变更加敏感和鲁 棒。新的隐藏状态公式化为:Ht= GRU([Ht−1,Xt],Et)+ Ht−1W,其中Et是时间t时的外部特征,W是一个线性可训 练参数,Ht−1W是残差捷径路径。 Yu et al.[106]通过将隐藏状态从Ht= GRU([Ht−1,Xt]) 改为Ht= GRU(Ht−s,Xt),在GRU中引入了扩张跳跃连接, 其中s表示每一层的跳跃长度或膨胀率,GRU(·)表示 GRU隐藏层。这种膨胀的分层设计为不同层的循环单元 引入了多时间尺度,实现了多尺度建模。 尽管有上述技巧,一些研究工作仍用谱图卷积(S GC)或扩散图卷积(DGC)替代循环神经网络(RNN) 隐藏层中的矩阵乘法,以联合捕捉时空相关性。以门控循 环单元(GRU)为例: rt= σ([Ht−1, Xt] ∗G Wr+ br) ut= σ([Ht−1, Xt] ∗G Wu+ bu) H˜t= tanh(rt [Ht−1, Xt] ∗G Wh+ bh) Ht= ut Ht−1+(1 − ut) H˜t (12) ∗G可以表示SGC、DGC或其他卷积操作。在我们调研的文 献中,大多数替换发生在GRU中,仅有一例在LSTM[67]中。 在与GRU相关的交通研究中,[97],[107],[109],[113],[119] 将矩阵乘法替换为DGC,[43],[78],[106]替换为SGC, [105],[120]替换为图注意力网络。 除了循环神经网络,其他技术(例如下一小节中的时 间卷积网络)也是提取交通任务中时序动态的流行选择。
C. 时间卷积网络
尽管基于RNN的模型在时间序列分析中已广泛使用, 但用于交通预测的循环神经网络仍存在迭代耗时、门控机 制复杂以及对动态变化响应缓慢的问题[93]. 相比之下,一 维卷积神经网络具有训练速度快、结构简单且不受先前步 骤限制的优势[140]。然而,由于一维卷积神经网络缺乏对 长序列的记忆能力,在实际应用中其使用频率低于循环神 经网络[141]。2016年,提出了一种结合因果卷积和空洞卷 积的新型卷积操作[142],在文本到语音任务中表现优于循 环神经网络。因果卷积的预测依赖于之前的元素,而不依 赖于未来的元素。空洞卷积通过用零扩展原始滤波器来扩 大感受野[143]。Bai et al.[144]将因果空洞卷积简化并应 用于序列建模问题,并将其重新命名为时间卷积网络( TCN)[142]。近年来,越来越多的研究采用时间卷积网络 (TCN)处理交通数据[71],[93],[103],[112]。
1) 序列建模与一维时间卷积网络 :给定一个长度为 P的输入序列,表示为x =[x1,···, xp] ∈ R P,序列建模 的目标是生成一个相同长度的输出序列,表示为y =[ y1,···, yp] ∈ R P。其关键假设是当前时间的输出yt仅依 赖于历史数据[x1,···, xt],而不依赖于任何未来的输入[ xt+1,···, xP],即y t= f (x1,···, xt),其中f为映射函数。 显然,RNN、LSTM和GRU可以作为序列建模任务的 解决方案。然而,TCN能够比循环神经网络更高效地处理 序列建模问题,因为它能以非递归的方式有效捕捉长序列。 TCN中的空洞因果卷积定义如下: yt= ∗T d xt= K−1 k=0 wkxt−dk (13) 其中 ∗T d是膨胀率为d的膨胀因果算子,用于控制跳跃距 离, =[w0,···,wK−1] ∈R K为卷积核。采用零填充策 略以保持输出长度与输入长度相同(如图8所示)。若不 使用填充,输出长度将缩短(K −1)d[93]。 为了扩大感受野,时间卷积网络堆叠了多个空洞因果 卷积层,其中d= 2l作为lth层的膨胀率(如图8所示)。 因此,网络中的感受野呈指数级增长,而无需使用大量卷 积层或更大的滤波器,从而可以用更少的层数处理更长的 序列,并节省计算资源[103]。
2) 交通领域中的TCN :有许多与序列建模相关的交通 研究,特别是交通时空预测任务。与循环神经网络相比, TCN的非递归计算方式能够缓解梯度爆炸问题,并有助于 训练过程
并行计算。因此,一些研究采用时间卷积网络(TCN)来捕捉交 通数据中的时间依赖性。 大多数基于图的交通数据是表示为X ∈ RP×N×FI的三 维信号,这需要将一维时间卷积网络推广到三维TCN。可 以采用空洞因果卷积来生成节点i在时间t的j th输出特征, 如下所示[71]: Yi t,j= ρ(j ∗T d X i t)= ρ( FI m=1 K−1 k=0 wj,m,kX i t−dk,m)(14) 其中, 1 ≤j ≤FO, Yi t,j ∈ R是节点 i在时间 t 的第 j th个输出特 征。Xi t−dk,m ∈ R是节点 i在时间 t −dk 的第 mth个输入特征。 卷积核 j ∈ R K×FI是可训练的。FO是输出特征的数量。 相同的卷积核被应用于交通网络中的所有节点,每个 节点生成FO个新特征。每一层的数学表达式如下 [71],[112]: Y= ρ( ∗T d X) (15) 其中X ∈ R P×N×FI表示过去P个时间片内整个交通网络 的历史观测值, ∈ R K×FI×F O表示相关的卷积核, Y ∈ R P×N×FO是时间卷积网络层的输出。 在特定交通任务中,有一些技巧可以提升时间卷积网 络的性能。例如,Fang et al.[112]堆叠了多个时间卷积网 络层,由底层提取短期邻近依赖,由高层提取长期时序依 赖: Y(l+1)= σ( l ∗T d Y (l)) (16) 其中 Y(l)是lth层的输入, Y(l+1)是输出和Y(0)= X。d = 2l是lth层的膨胀率。 为了降低模型训练的复杂度,Ge et al.[71]构建了一 个包含两个具有相同膨胀率的时间卷积网络层的残差块。 将块输入添加到最后一个时间卷积网络层以得到块输出: Y(l+1 )= Y(l)+ ReL U( l 1 ∗T d(ReL U( l 0 ∗T d Y (l) ))) (17) 其中 l 1 , l 2 分别是第一层和第二层的卷积核。Y( l )是残差 块的输入,Y( l+1 )是其输出。 图9. 无注意力机制的序列到序列结构。 Wu et al.[103]将门控机制[141]与时间卷积网络结合, 以学习交通数据:中的复杂时间依赖性 Y= ρ1(1 ∗T d X+ b1) ρ2(2 ∗T d X+ b2) (18) 其中 ρ2(·) ∈[0, 1]决定了传递到下一层的信息比例。 类似地,Yu et al.[93]使用了门控时间卷积网络(Gated TCN), 并将膨胀率 d= 1设置为无零填充,以将输出长度缩短为 Y=( 1 ∗T 1 X) σ(2 ∗T 1 X)。他们认为这可以发现时间序列交通数据中的 变化。
D. Seq2Seq
1) Seq2Seq :序列到序列(Seq2Seq)模型自 2014[145] 提出以来,已被广泛应用于机器翻译[146]等序列预测任 务中。Seq2Seq 架构包含两个组成部分:编码器负责将输 入序列 X转换为一个固定的潜在向量 C,解码器则负责将 C转换为输出序列Y(如图9所示)。注意,X和 Y的长 度可以不同。 X=[X1,···,Xi,···, XP] Seq2Seq −→ Y=[Y1,···, Yj,···, YQ] (19) 其中P是输入长度,Q是输出长度。Xi是时间步i的输入。Yj是 时间步j的输出。 Yj的具体计算如下: Hi= Encoder(Xi, Hi−1) C= HP, S0= HP Sj= Decoder(C, Yj −1, Sj −1) Y j= Sj W (20) 这里,Hi 是编码器的隐藏状态。H0 使用较小的非零元素进 行初始化。Sj 是解码器的隐藏状态。Y0 是开始符号的表示。 注意,只要能够接受序列并生成序列,编码器和解码器可以 是任意模型,例如 RNN、LSTM、门控循环单元 或其他新 颖模型。 序列到序列模型的一个主要局限性在于,对于每个Yj,潜在 向量C是固定的,而Yj可能与Xj具有比与其他元素更强的相关 性。为了解决这个问题,将注意力机制引入序列到序列模型中, 使解码器能够关注输入序列中与任务相关的部分,从而有助于
解码器做出更好的预测。 Hi= Encoder(Xi, Hi−1) Cj= i=P1 (θjiHi), S0= HP Sj= Decoder(Cj, Yj −1, Sj −1) Yj= Sj W (21) 其中 θji= exp(f j i)P k=1exp(f j k)是归一化的注意力分数, 而 f j i=f(Hj,Si−1)[146] 是用于衡量 ith输入 和 j th输出 之间相关性的函数,例如,Luong et al. [147] 提出了三 种注意力分数计算方法。 fji= ⎧⎨⎩ HT j Si−1 dot j WaSi−1 general vaT tanh WaHj, Si−1 concat (22) 另一种提升序列到序列性能的方法是计划采样技术 [148]。在训练和测试阶段,解码器的输入是不同的。训 练阶段的解码器以训练数据集的真实标签作为输入,而测 试阶段则以自身生成的预测结果作为输入,这会导致测试 时误差累积,从而导致性能下降。为缓解此问题,将计划 采样集成到模型中。在训练过程中的第j th次迭代时,向 解码器输入真实标签的概率设为 j ,而输入上一步预测 结果的概率设为1 − j。概率j逐渐减小至0,从而使解 码器学习到测试阶段的分布,尽可能保持训练与测试的一 致性。
2) 交通领域中的序列到序列 :由于序列到序列模型可 以接收一个输入序列并生成长度不同的输出序列,因此被 广泛应用于多种交通任务中的多步预测。编码器将历史交 通数据编码为一个潜在空间向量,然后将该潜在向量输入 解码器以生成未来交通状况。 注意力机制通常被结合到序列到序列模型中,以建模 不同时段的先前交通观测数据对未来预测的不同影响 [99],[101],[111],[77]。 在许多交通文献中,编码器和解码器负责捕捉时空依 赖性。例如,Li et al.[109]提出了将DCGRU用作编码器 和解码器,以联合捕捉空间和时间动态。编码器和解码器 的设计通常是相关研究的核心贡献和创新部分。需要注意 的是,编码器和解码器不一定相同,我们对以往基于图的 交通研究中的序列到序列结构进行了总结(如表III所示)。 基于RNN的解码器在测试推理过程中存在严重的误 差累积问题,因为每一步的先前预测结果都会作为输入来 生成下一步的预测。为缓解此问题,[105],[109]中采用了 计划采样方法。基于RNN的解码器被替换为短期和长期 解码器,以接收上一步的预测结果作为输入
专门地,从而缓解误差累积[77]。序列到序列技术在交通 领域的应用十分灵活。例如,序列到序列被集成到更大的 框架中,作为生成对抗网络的生成器和判别器[101]。
E. GAN
1) GAN :生成对抗网络(GAN)[149]是一种强大的 深度生成模型,旨在生成尽可能难以与其真实对应样本区 分的人工样本。GAN 受博弈论启发,由两个参与者组成: 一个称为生成器的生成神经网络G和一个称为判别器的对 抗网络D(如图10所示)。 判别器D试图判断输入样本属于生成的数据还是真实 数据,而生成器G则试图通过生成尽可能真实的样本来欺 骗判别器D。这两个相互对抗并优化的过程交替进行训练, 从而增强D和G的性能。当生成器G生成的伪造样本非常 接近真实情况,且D无法再区分它们时,认为生成器G 已经学习到了真实数据的真实分布,模型收敛。此时,可 认为该博弈达到了纳什均衡[150]。 从数学上讲,该过程可以被公式化为最小化其损失Loss G 和Loss D 。其中损失函数为
。判别器D负责区分来自生成器G的伪造 样本xf与
图神经网络在交通中的应用
325

被折叠的 条评论
为什么被折叠?



