物理‐虚拟协同图网络预测地铁客流-优快云博客

面向站内与站间地铁客流量预测的物理‐ 虚拟协同建模

摘要

由于在现实场景中的广泛应用，地铁客流量预测是智能交通系统中一项关键但具有挑战性的任务。然而，传统方法要么忽略了地铁系统的拓扑信息，要么仅在物理拓扑上直接学习，无法充分挖掘客流量演化的模式。为解决这一问题，我们将地铁系统建模为具有多种拓扑结构的图，并提出一种统一的物理‐虚拟协作图网络（PVCGN），该方法能够从定制设计的图中有效学习复杂的客流模式。具体而言，物理图基于所研究地铁系统的实际拓扑结构直接构建，而相似性图和相关性图则在站点间乘客流的相似性和相关性指导下，通过虚拟拓扑结构构建。这些互补图被引入图卷积门控循环单元（GC‐GRU）中进行时空表征学习。此外，还采用全连接门控循环单元（FC‐GRU）以捕捉全局演化趋势。最后，我们开发了一种结合GC‐GRU和FC‐GRU的序列到序列模型（Seq2Seq model），用于逐步预测未来的地铁客流量。在两个大规模基准（如上海地铁和杭州地铁）上的大量实验充分证明了我们的PVCGN在站点级地铁客流预测中的优越性。此外，我们将提出的PVCGN应用于在线起讫点（OD）客流量预测，实验结果展示了该方法的通用性。我们的代码和基准数据集可在 https://github.com/HCPLab‐SYSU/PVCGN 获取。

索引词

地铁系统，客流预测，图卷积网络，物理拓扑，虚拟拓扑。

一、引言

METRO 是一种高效且经济的出行方式，在大都市中发挥着重要作用居民的日常生活。截至2018年底，中国大陆已有35个地铁系统投入运营，服务数千万乘客。1例如，2018年北京2和上海每日地铁出行交易量均超过1000万次。3如此巨大的地铁客流量给城市交通带来了巨大挑战，任何交通管理上的疏忽都可能导致全市范围的拥堵。为了提高地铁系统的服务效率，一个基本问题是如何准确预测每个车站的客流量（如流入量和流出量），本文将此问题称为站点级地铁客流预测。由于其在交通调度和路线规划中的潜在应用，该问题已成为智能交通系统（ITSs）领域的一个研究热点[1]–[6]。

在过去十年中，人们投入了大量努力来解决交通状态（如流量、速度和需求）的预测问题。早期的研究工作[7]–[9],通常将每个时间间隔内各位置的交通状态原始数据转换为向量/序列，并应用时间序列模型[8],[10]进行预测。然而，这种数据格式无法保留位置的空间信息以及两个位置之间的拓扑连接信息。近年来，深度神经网络（如长短期记忆网络[11]和门控循环单元[12]）已被广泛应用于城市范围交通预测[13]–[19]。这些研究通常基于地理坐标将研究城市划分为规则网格地图，并将采集到的交通状态数据组织为欧几里得二维或三维张量，可直接输入卷积网络以实现自动表示学习。然而，这种方式不适用于地铁系统，因为其拓扑结构为非规则图，数据结构属于非欧几里得。尽管地铁系统的交易记录可以被渲染成网格图[20], ，但从该渲染图中学习客流量演化模式效率低下，因为该图非常稀疏且无法保持站点之间的连接信息。

总体而言，地铁客流量预测的挑战在于如何高效地建模地铁系统的非欧几里得结构，并充分捕捉客流量演化模式。尽管新兴的图卷积网络（GCN[21]–[23]）已被证明具有通用性非欧几里得数据嵌入中，如何在图卷积网络（GCN）中构建合理的图结构仍然是一个开放性问题，且不同任务中的构建策略各不相同[24]–[27]。一些近期研究[28]–[34]已将GCN应用于交通预测，其中大多数直接基于所研究交通系统的物理拓扑构建地理图。然而，这种简单策略对于地铁客流量预测而言并非最优，因为它仅能学习相邻站点之间的局部空间依赖性，无法充分捕捉地铁系统中的站间流动模式。因此，除了物理拓扑之外，我们还应结合人类领域知识构建更为合理的图结构，例如:

站间流动相似性 ：直观上，如果不同区域的地铁站所在区域具有相同的功能（例如办公区），则这些站点的乘客流演变模式可能相似。尽管这些站点在现实世界的地铁系统中并未直接连接，但我们可以通过虚拟边在图卷积网络中将它们连接起来，以共同学习其演变模式。
站间流动相关性 ：通常情况下，每两个站点之间的客流量并不均匀，而乘客流的方向隐含地表示了两个站点之间的相关性。例如，如果（i）站点a的大部分流入量流向站点b，或者（ii）站点a的流出量主要来自站点b，我们认为站点a和b具有高度相关性。在这种情况下，这些站点也可以相互连接，以学习站点间的客流量交互关系。

基于上述观察，我们提出了一种统一的物理‐虚拟协同图网络（PVCGN），以端到端的方式预测未来地铁客流量。为了充分挖掘客流量演化模式，我们利用地铁系统的物理拓扑信息和人类领域知识构建了三个互补图。首先，基于所研究地铁系统的实际拓扑结构直接构建一个物理图。然后，分别基于不同站点间的乘客流相似性和相关性，构建具有虚拟拓扑结构的相似性图和相关性图。特别地，两个站点之间的相似性得分通过计算其历史流量序列之间的动态时间规整（DTW[35]）距离获得，而相关性比率则由历史起讫分布确定。这些定制设计的图被整合进一个扩展的图卷积门控循环单元中，以协同捕捉客流量演化模式。此外，采用全连接门控循环单元来学习全局演化趋势的语义特征。最后，我们应用序列到序列模型[36]依次预测接下来多个时间间隔的地铁客流量。为验证所提出的PVCGN的有效性，我们在两个大规模基准（即上海地铁和杭州地铁）上进行了大量实验，评估结果表明，在各种对比情况下，我们的方法优于现有的最先进方法。为验证该方法的通用性，我们进一步将提出的PVCGN用于预测在线起讫分布(OD)起讫点客流量，实验结果也证明了PVCGN在起讫点客流量预测中的有效性。

总之，我们的主要贡献有四个方面:

我们开发了一种统一的物理‐虚拟协同图网络（PVCGN），用于解决站点级地铁客流预测问题。具体而言，PVCGN将物理图、相似性图和相关性图引入图卷积门控循环单元中，以促进时空表征学习。
物理图基于地铁系统的实际拓扑结构构建，而另外两个虚拟图则利用人类领域知识构建，以充分挖掘客流量演化模式。
在两个真实世界地铁客流量基准上的大量实验表明，我们的PVCGN在站点级客流预测方面全面优于最先进的方法。
作为一种通用模型，我们的PVCGN可直接用于在线起讫量客流预测，并同样实现了优异的性能。

本文其余部分的组织结构如下。首先在第二节中探讨图上的深度学习以及交通状态预测的相关研究工作。接着在第三节中系统地介绍所提出的PVCGN模型。在第四节中，我们对车站级地铁客流量预测进行了广泛的对比实验，并在第五节中将PVCGN扩展用于在线OD起讫点客流量预测。最后，在第六节中总结全文并讨论未来工作。

II. 相关工作

A. 图上的深度学习

在机器学习中，欧几里得数据指的是具有底层欧几里得结构[37]–[43]的信号（如语音、图像和视频）。尽管深度卷积神经网络/循环神经网络（CNN/RNN）能够成功处理欧几里得数据，但应对非欧几里得数据（例如图），即许多应用中的数据结构，仍然具有挑战性。为解决这一问题，图卷积网络（GCN）被提出以自动学习图上的特征表示。例如，Bruna等et al.[21]引入了一种图拉普拉斯谱滤波器，以推广非欧几里得域中的卷积算子。Defferrard等et al. [44]提出了基于谱图理论的卷积神经网络公式，并设计了图上的快速局部卷积滤波器。Atwood和Towsley[45]开发了基于空间的图卷积，并将其视为一种扩散过程，其中节点的信息以一定的转移概率传递给其邻近节点。Veliˇckovi´c等et al.[46]认为相邻节点对中心节点的贡献并不相同，因此提出了图注意力网络。Wu等et al. [47]通过连续去除非线性和折叠连续层之间的权重矩阵来降低GCN的复杂度。Seo等et al.[48]将图卷积与循环神经网络结合，以同时利用图的空间信息和动态信息进行结构化序列学习。

最近，图卷积网络已被广泛应用于解决各种任务，且在不同场景中图的构建策略也各不相同例如，在计算机视觉领域，Jiang等[49]利用物体的共现概率、属性相关性和空间相关性构建了三个图用于大规模目标检测。Chen等[27]基于统计标签共现构建了用于多标签图像识别的语义特定图。在自然语言处理领域，Beck等[50]利用源依赖信息构建了Levi图[51]用于神经机器翻译。对于半监督文档分类，Kipf和Welling[23]提出了谱图的一阶近似[44] ，并基于引用链接构建其图结构。在数据挖掘领域，通常利用项目与项目、用户与用户以及用户与项目之间的关系来构建基于图的推荐系统[52]。总之，如何构建图是一个开放性问题，我们应针对特定任务灵活设计图的拓扑结构。

B. 交通状态预测

准确预测未来的交通状态对于智能交通系统至关重要，已有许多模型被提出以解决这一任务[53]–[55]。早期的研究[7]–[9],[56],[57],从某些特定位置收集大量交通数据，并将每个时间间隔的原始数据按一定顺序排列为向量（序列）。这些向量进一步输入到时间序列模型中进行预测。其中一项代表性工作是数据聚合（DA）模型[58], ，该模型同时应用移动平均（MA）、指数平滑（ES）和自回归移动平均（ARIMA）来预测交通流量。然而，这种简单的数据格式由于缺乏空间信息而效率低下，且这些基础的时间序列模型无法学习复杂的交通模式。因此，在复杂交通场景中，上述方法远未达到令人满意的性能。

近年来，深度神经网络已成为该领域的主流方法。例如，Zhang等[13]利用三个残差网络来学习人群流动的邻近性、周期和趋势特性。Wang等[59]开发了一种端到端的卷积神经网络，以从网约车服务数据中自动发现供需模式。Zhang等[18]采用深度多任务框架同时预测基于区域的流量和区域间转移。随后，循环神经网络（RNN）及其各种变体也被广泛用于学习时间模式。例如，Yao等[14]提出了一种用于出租车需求预测的深度多视角时空网络，该网络分别利用深度卷积神经网络和长短期记忆网络（LSTM[11]）单元来学习空间关系和时间相关性。刘等[60]开发了一种注意力卷积LSTM网络，通过注意力机制动态学习时空表征。在[17],中，引入了基于周期性偏移注意力机制的LSTM以捕捉长期周期依赖和时间偏移。为了适应卷积神经网络和循环神经网络所需的输入格式，这些研究中的大多数将所研究的城市划分为规则网格地图，并将原始交通数据转换为张量。然而，这种预处理方式在处理具有不规则拓扑的交通系统，如地铁系统和道路网络。

为了提高上述方法的通用性，一些研究人员尝试使用图卷积网络来解决该任务。例如，Li et al.[28]将交通流量建模为有向图上的扩散过程，并通过双向随机游走捕捉空间依赖性；而Zhao et al.[32]提出了一种基于城市道路网络的时序图卷积网络用于交通预测。Guo et al.[61]和Zheng et al.[34]将注意力机制引入时空图网络，以动态建模多种因素对交通预测的影响。Wu et al.[62]开发了结合节点嵌入的自适应依赖矩阵，以精确捕捉隐含空间依赖性。Bai et al.[63]利用分层图卷积结构来同时捕捉空间和时间相关性，实现多步乘客需求预测。Song et al.[64]提出了时空同步图卷积网络（STSGCN），通过时空同步建模机制捕捉复杂的局部时空相关性。最近，图卷积网络也被应用于地铁客流量预测。在[65],中，图卷积操作被用来捕捉地铁网络中的不规则时空依赖，但其图结构直接基于地铁系统的物理拓扑构建。相比之下，我们将物理拓扑信息与人类领域知识相结合，构建了三种具有不同拓扑结构的协作图，能够有效捕捉复杂模式。

与我们的工作最相关的是ST‐MGCN[31],，该方法结合了邻域图（NGraph）、交通连接图（TGraph）和功能相似性图（FGraph），用于网约车需求预测。我们的PVCGN与ST‐MGCN之间的差异主要有两点。首先，ST‐MGCN在图构建中严重依赖道路网络的额外信息（例如高速公路和公路）以及兴趣点（POI）。然而，这些信息在许多场景下是无法获取的。相比之下，我们的PVCGN不需要任何外部信息，我们的图可以直接基于空间拓扑信息和历史客流量数据构建。因此，我们的方法在交通预测中更灵活且通用。其次，ST‐MGCN更多关注基于现实世界拓扑结构构建物理图（即NGraph和TGraph），仅利用外部POI信息构建虚拟图（即FGraph）。相比之下，除了物理图之外，我们的PVCGN充分挖掘了潜在的交通模式（如站间流动相似性和OD相关性）来构建虚拟图。因此，我们的方法能够为交通预测学习到更全面且知识丰富的表示。

C. 交通起讫点预测

交通起讫点（OD）预测是一项具有挑战性的任务，旨在预测任意两个位置之间的交通流量或需求。一些早期的研究[66]–[68]通常采用时间序列模型（例如卡尔曼滤波）来估计OD流量，而近期的研究则开发了多种深度神经网络用于预测起讫矩阵。例如，刘等[16]提出了一种上下文化时空网络，该网络结合了局部空间上下文、时间演化上下文和全局相关上下文，以预测出租车起讫需求。Chu等[69]开发了一种多尺度卷积LSTM网络，用于出租车起讫流量预测。Wang等[70]提出了一种基于网格嵌入的多任务学习框架，通过在地理和语义邻居之间应用图卷积来建模起讫转移模式。Shi等[71]利用长短期记忆单元提取每个起讫对的时间特征，然后通过二维图卷积网络学习起点和终点的空间依赖性。在上述网约车应用中，一旦生成出租车请求，乘客的起点和终点即已知。然而，在在线地铁系统中，乘客的目的地在到达目的车站之前是未知的，因此我们无法立即获得完整起讫分布以预测未来起讫需求。为解决此问题，Gong等[72]使用一些指示矩阵来屏蔽和忽略潜在的未完成地铁订单。在我们的工作中，我们应用提出的PVCGN，通过学习从历史不完整起讫需求到未来完整起讫需求的映射来处理此任务，更多细节见第五节。

III. 方法论

在本研究中，我们提出了一种新颖的物理‐虚拟协同图网络（PVCGN），用于站点级地铁客流预测。基于地铁系统的物理拓扑结构和人类领域知识，我们构建了物理图、相似性图和相关性图，并将其引入图卷积门控循环单元（GC‐GRU）中，以实现局部时空表征学习。然后，采用全连接门控循环单元（FC‐GRU）来学习全局演化特征。最后，我们开发了一个结合GC‐GRU和FC‐GRU的序列到序列框架，用于预测每个地铁站的客流量。

在介绍PVCGN的细节之前，我们首先定义一些客流预测的相关符号。车站i在时间间隔t的客流数据表示为X i t ∈ R 2，其中这两个值分别表示进出站乘客数量。整个地铁系统的客流量表示为一个信号Xt=(X 1 t,X 2 t,…,X N t) ∈ R 2×N，其中N为车站数量。给定一段历史客流序列，我们的目标是预测未来的客流序列:
$$
\hat{X} {t+1}, \hat{X} {t+2}, …, \hat{X} {t+m} = \text{PVCGN}(X {t-n+1}, X_{t-n+2}, …, X_t) \quad (1)
$$
其中，n表示输入序列长度，m表示预测序列长度。为了便于后续小节的讨论，我们将车站i的全部历史客流量表示为向量Xi ∈ R 2T，其中T表示训练集中的时间间隔数量。

A. 物理-虚拟图

在本节中，我们描述如何构建物理图和两个虚拟图。根据定义，一个图是由节点、边以及边的权重组成。在本文中，物理图、相似性图和相关性图分别表示为 Gp=(V, Ep, Wp)、 Gs=(V, Es, Ws)和Gc=(V, Ec, Wc)。 V是节点集合（|V| = N），每个节点代表一个现实世界的地铁站。需要注意的是，这三个图共享相同的节点，但具有不同的边和边的权重。 Ep、 Es和 Ec分别为不同图的边集。对于特定图Gα(α= p, s, c)，Wα ∈ RN×N表示所有边的权重。具体而言，Wα(i, j) 表示从节点j到节点i的边的权重。

1) 物理图 ：Gp直接基于所研究地铁系统的物理拓扑构建。如果现实中对应的站点i和j相互连接，则在 Ep中建立一条边以连接节点i和j。为了计算这些边的权重，我们首先构造一个物理连接矩阵P ∈ RN×N。如图1-(a,b)所示，若节点i和j之间存在边，则P(i, j) = 1，否则P(i, j) = 0。为了避免图自环的重复计算，每个对角线值P(i, i)直接设为0，而自环将在公式7中对多图统一计算一次。最后，通过对每一行进行线性归一化得到边权重Wp。具体地， Wp(i,j)通过:计算得出
$$
W_p(i,j) = \frac{P(i,j)}{\sum_{k=1}^{N} P(i,k)} \quad (2)
$$

2) 相似性图 ：在本节中，利用地铁站的相似性来指导 Gs的构建。首先，通过计算每两个站点之间的乘客流相似性来构建相似度评分矩阵S ∈ R N×N。具体而言，站点i与j之间的分数S(i,j)使用动态时间规整（DTW[35]）进行计算：
$$
S(i,j) = \exp(-DWT(X_i, X_j)) \quad (3)
$$
其中，动态时间规整是一种用于度量两个时间序列之间距离的通用算法。注意，S(i,i)也直接设为0。基于矩阵S，我们选择部分车站对来构建虚拟边Es。该选择策略是灵活的。例如，这些虚拟边可以通过预定义相似度阈值来确定，或通过选取具有高相似度分数的前-k个车站对来构建。更多选择细节见第四节-A.2部分。最后，我们通过对S进行行归一化来计算边权重Ws：
$$
W_s(i,j) = \frac{S(i,j)}{\sum_{k=1}^{N} S(i,k) \cdot L(E_s,i,k)} \quad (4)
$$
其中，L(Es,i, k)= 1如果 Es包含连接节点i和k的边，否则L(Es,i, k)= 0。相似性图的一个示例在图1-(d,e,f)中展示，我们可以观察到矩阵S是对称的，而由于行归一化，矩阵Ws是不对称的。

3) 相关性图 ：我们利用客流量的起讫分布来构建虚拟图Gc。首先，我们构建一个相关性比率矩阵C ∈ R N×N。具体地，R(i, j)通过:计算得出
$$
C(i,j) = \frac{D(i,j)}{\sum_{k=1}^{N} D(i,k)} \quad (5)
$$
其中，D(i,j) 表示在整个训练集中从车站j前往车站i的总乘客数。需要注意的是，C(i,i)也会被计算，因为在现实世界中存在少量乘客在同一车站进出的情况。我们采用第三章-A.2节中描述的类似选择策略来选择部分站点对以构建边。最后，边权重Wc 通过:计算得出。
$$
W_c(i,j) = \frac{C(i,j)}{\sum_{k=1}^{N} C(i,k) \cdot L(E_c,i,k)} \quad (6)
$$
相关性图的一个示例如图1-(d,e,f)所示，我们可以看到Gc是一个有向图，因为R(i,j) ≠ R(j,i)。

示意图0

B. 图卷积门控循环单元

作为LSTM的替代，门控循环单元（Gated Recurrent Unit）已广泛用于时间序列建模，通常通过标准卷积或全连接方式实现。在本节中，我们结合所提出的物理‐虚拟图，开发了一种统一的图卷积门控循环单元（GC‐GRU），用于时空特征学习。

我们首先在提出的物理‐虚拟图上定义卷积。假设输入为图卷积是It={I 1 t,I 2 t,…,I tN}，其中Ii t可以是客流数据Xi t或其特征。该图卷积的参数记为θ。根据卷积的定义，I i t的输出特征f(Ii t) ∈ R d通过:计算得到
$$
f(I_i^t) = \theta_l I_i^t + \sum_{j \in N_p(i)} W_p(i,j)\odot\theta_p I_j^t + \sum_{j \in N_s(i)} W_s(i,j)\odot\theta_s I_j^t + \sum_{j \in N_c(i)} W_c(i,j)\odot\theta_c I_j^t, \quad (7)
$$
其中 ⊙为Hadamard积，θ={θl,θp ,θs,θc}。具体而言，θl I i t表示所有图的自环， θl为可学习参数。θp 表示物理图 Gp 的参数， Np(i)表示节点i在Gp 中的邻居集合。其他符号 θs、 θc、 Ns(i)和 Nc(i)具有类似的语义含义。d为特征f(I i t) 的维度。通过这种方式，节点可以动态地从某些高度相关的邻居节点接收信息。为方便起见，公式7中的图卷积在下文中简记为It ∗θ。

由于上述操作是在空间视图上进行的，我们将物理‐虚拟图卷积嵌入门控循环单元中以学习时空特征。具体而言，重置门Rt={R1 t、R2 t、…、RN t}，更新门Zt={Z1 t、Z2 t、…、ZN t}，新信息Nt={N1 t、N 2 t、…、NN t}以及隐藏状态H t={H1 t、H 2 t、…、HN t}通过:计算得出
$$
R_t = \sigma(\theta_{rx} \ast I_t + \theta_{rh} \ast H_{t-1} + b_r) \
Z_t = \sigma(\theta_{zx} \ast I_t + \theta_{zh} \ast H_{t-1} + b_z) \
N_t = \tanh{\theta_{nx} \ast I_t + R_t \odot (\theta_{nh} \ast H_{t-1} + b_n)} \
H_t = (1 - Z_t) \odot N_t + Z_t \odot H_{t-1} \quad (8)
$$
其中 σ是sigmoid函数，Ht−1是上一次迭代的隐藏状态。θrx表示Ht与Xt之间的图卷积参数，而θrh表示Rt与Ht−1之间的参数。其他参数θzx、 θzh、 θnx和 θnh具有类似含义。br、bz和bn为偏置项。Ri t、Zi t、Ni t和H i t的特征维度也设置为d。为方便起见，我们将式(8)的操作记为:
$$
H_t = \text{GC-GRU}(I_t, H_{t-1}) \quad (9)
$$
得益于这种GC‐GRU，我们可以从地铁系统的客流数据中有效学习时空特征。

C. 局部-全局特征融合

在以往的研究中[5],[16],，全局特征已被证明对交通状态预测同样有效。然而，所提出的GC‐GRU仅在局部空间上进行卷积，无法捕捉全局上下文信息。为解决此问题，我们采用全连接门控循环单元（FC‐GRU）来学习所有站点的全局演化特征，并通过融合GC‐GRU和 FC‐GRU的输出生成综合特征。本文所设计的融合模块称为协同门控循环模块（CGRM），其结构如图3所示。

具体而言，CGRM的输入是It 和 ˜ H t− 1，其中 ˜H t− 1是上一次迭代的输出。对于GC‐GRU 而言，而不是将原始的Ht作为输入，它利用Ht−1中的累积信息来更新隐藏状态，因此公式9变为:
$$
H_t = \text{GC-GRU}(I_t, \tilde{H} {t-1}) \quad (10)
$$
对于FC‐GRU，我们首先通过两个全连接（FC）层将It和˜Ht−1转换为嵌入式表示I tg ∈ R d和H g t−1 ∈ R d。然后将I e t和H e t−1输入到一个基于全连接实现的普通GRU[12]中，以生成全局隐藏状态 ˜H g t ∈ R d，其可表示为:
$$
I_e^t = \text{FC}(I_t), \quad H_e^{t-1} = \text{FC}(\tilde{H} {t-1}), \
H_g^t = \text{FC-GRU}(I_e^t , H_e^{t-1}) , \quad (11)
$$
最后，我们将Ht和H g t输入全连接层以生成一个综合的隐藏状态 ˜Ht={ ˜H 1 t , ˜H 2 t ,…, ˜H N t}
$$
\tilde{H}_i^t = \text{FC}(H_i^t \oplus H_g^t), \quad (12)
$$
其中 ⊕表示特征拼接操作。H˜t包含了客流量的局部和全局上下文，我们已在第IV-C.2节证明了其有效性。

示意图1

D. 物理-虚拟协同图网络

在本节中，我们应用上述循环图神经单元构建物理‐虚拟协作图网络（PVCGN），用于站点级地铁客流预测。借鉴以往的研究[34],[63],[73]–[76],，我们也采用序列到序列架构来构建框架，其结构如图2所示。

具体而言，PVCGN包含一个编码器和一个解码器，二者均包含两个循环图神经模块。在编码器中，客流数据{Xt−n+1, Xt−n+2,…,Xt}被依次输入循环图神经模块，以累积历史信息。在第i次迭代时，底层循环图神经模块以Xt−n+i作为输入，其输出的隐藏状态被送入上层循环图神经模块进行高层特征学习。特别地，在首次迭代时，两个循环图神经模块的初始隐藏状态均设为零。在解码器中，首次迭代的输入数据同样设为零，并使用编码器的最终隐藏状态来初始化解码器ˆ的隐藏状态。通过将上层循环图神经模块输出的隐藏状态输入全连接层，可预测未来客流Xˆt+1。在第i(i ≥ 2)次迭代时，底层循环图神经模块以Xˆt+i−1作为输入数据，上层循环图神经模块同样通过一个ˆ全连接层来预测Xˆt+i。最终，我们可以得到一个未来客流序列{Xˆt+1,Xˆt+2,…,Xˆt+m}。

示意图2

IV. 实验

A. 实验设置

1) 数据集构建：

由于地铁客流量预测的公开基准数据集较少，我们从两个实际地铁系统中收集了大量出行交易记录，并构建了两个大规模数据集，分别称为HZMETRO和 SHMETRO。这两个数据集的概览总结于表I。

SHMetro ：该数据集基于中国上海的地铁系统构建。从2016年7月1日至2016年9月30日，共收集了8.118亿条交易记录，每日客流量达882万。每条记录包含乘客ID、进出站站点及相应的时间戳信息。在此期间，共有288座地铁车站站点正常运营，并由958条物理边连接。对于每个站点，我们通过统计进出站的乘客数量，测量其每15分钟的流入量和流出量。前两个月的客流数据用于训练，最后三周的客流数据用于测试，其余天数的客流数据用于验证。

HZMetro ：该数据集基于2019年1月收集的杭州地铁系统交易记录创建。杭州地铁系统拥有80个运营车站和248条物理边，每日客流量达235万。该数据集的时间间隔也设置为15分钟。与SHMETRO类似，该数据集被分为三部分，包括训练集（1月1日 – 1月18日）、验证集（1月19日 – 1月20日）和测试集（1月21日 – 1月25日）。

2) 实现细节：

由于物理图具有明确的拓扑结构，本节仅介绍两个虚拟图的构建细节。在SHMetro数据集中，为了降低图卷积网络（GCN）的计算成本，对于每个站点，我们仅选择相似度得分或相关率最高的前十站点来构建虚拟图，因此相似性图和相关性图均包含2880条边。在 HSMetro数据集中，由于其站点数量远少于SHMetro，计算成本较轻，因此可以构建更多的虚拟边以学习复杂模式。具体而言，我们通过设置相似度/相关性阈值为 0.1/0.02来确定虚拟边，最终的相似性图和相关性图分别包含2502条和1094条边。

我们使用流行的深度学习框架PyTorch[77]实现我们的PVCGN。输入和输出序列的长度均设置为4。输入数据和输出的真实值在输入网络之前通过Z-score归一化进行归一化处理。所有层的滤波器权重由Glorot和Bengio[78]初始化。批量大小在SHMETRO上设为8，在 HZMETRO上设为32。特征维度d设为256。初始学习率为0.001，衰减率为0.1。我们采用Adam[79]优化方法，通过最小化预测结果与对应真实值之间的平均绝对误差，对PVCGN进行200个训练周期的训练。在每个基准数据集上，我们使用训练集训练提出的PVCGN，并利用验证集确定模型的超参数。最后，在测试集上评估训练好的模型。

3) 评估指标：

参考以往的研究[28],[32],，我们使用均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）来评估方法的性能，其定义如下:
$$
\text{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\hat{X} i - X_i)^2}, \
\text{MAE} = \frac{1}{n}\sum {i=1}^{n}|\hat{X} i - X_i|, \
\text{MAPE} = \frac{1}{n}\sum {i=1}^{n}\frac{|\hat{X}_i - X_i|}{X_i}
$$
其中n为测试样本的数量。$\hat{X}_i$和$X_i$分别表示预测客流量和真实客流量。需要注意的是，$\hat{X}_i$和$X_i$已经通过逆 Z-score归一化转换回原始尺度。如第四节-A.2部分所述，我们的PVCGN旨在预测接下来四个时间间隔的地铁客流量。在以下实验中，我们将分别测量每个时间间隔的误差。

B. 与最先进的方法的比较

在本节中，我们将PVCGN与九种基础和先进方法在多种场景下进行比较（例如，在完整测试集上的比较、高峰时段的比较以及高客流车站比较）。这些方法可分为三类：(i)三种传统时间序列模型，(ii)三种通用深度学习模型，以及(iii)五种近期提出的图网络。这些方法的详细信息如下:

历史平均法（HA） ：历史平均法（HA）是一种基于季节性的基线方法，通过取对应历史时段的客流量平均值来预测未来客流量。例如，某周一9:00‐9:15时间间隔的客流量预测值为此前k个周一相同时段客流量的平均值。k在SHMETRO上设为4，在SHMETRO上设为2。
随机森林（RF） ：随机森林（RF）是一种用于回归与分类问题的机器学习技术，通过构建大量决策树来运行。该方法使用Sklearn实现。树的数量设置为10，最大深度自动扩展，直到所有叶节点均为纯节点或所有叶节点包含的样本少于2个。
梯度提升决策树（GBDT） ：GBDT是一种加权集成方法，由一系列弱估计器组成。我们使用Sklearn实现该方法。提升阶段数设置为100，每个估计器的最大深度为4。采用梯度下降优化器来最小化损失函数。
多层感知机（MLP） ：该模型由两个全连接层组成，分别包含256和2×4×s个神经元，其中s为车站数量。该模型以之前n个时间间隔内所有站点的客流量作为输入，同时预测接下来m个时间间隔内所有站点的客流量。其超参数与我们的模型相同。
长短期记忆网络（LSTM） ：该网络是一个简单的序列到序列模型，其核心模块由两个全连接的LSTM层组成。每个LSTM层的隐藏层大小设置为256。其超参数与我们的相同。
门控循环单元（GRU） ：该网络采用与前述模型相似的架构，但将原始的LSTM层替换为GRU层。GRU的隐藏层大小也设置为256。其超参数与我们的相同。
基于注意力的时空图卷积网络（ASTGCN[61]） ：在本网络中，开发了时空注意力机制和时空卷积，以同时从交通数据中捕捉空间模式和时间模式。基于其官方代码，我们将该模型应用于地铁客流量预测。
时空图到序列模型（STG2Seq[63]） ：该方法应用分层图卷积结构，以同时捕捉空间和时间相关性。它包含一个短期编码器、一个长期编码器以及一个基于注意力机制的融合模块。根据官方代码，该方法被重新实现用于地铁客流量预测。
扩散卷积循环神经网络（DCRNN[28]） ：作为一种专为交通预测设计的深度学习框架，DCRNN利用图上的双向随机游走捕捉空间依赖性，并通过编码器‐解码器架构学习时间依赖性。我们基于其官方代码实现了该方法。
图卷积循环神经网络(GCRNN) ：该方法的架构和设置与DCRNN非常相似。主要区别在于，GCRNN使用基于谱图卷积的K= 3阶ChebNets[23]替代了扩散卷积层。
Graph-WaveNet[62] ：该方法通过构建自适应依赖矩阵来捕捉隐含空间依赖性，并利用堆叠扩张一维卷积组件处理极长序列。我们使用其官方代码实现了该方法。

1) 完整测试集上的比较：

我们首先比较所有对比方法在完整测试集上（包括所有时间间隔和所有地铁站）的性能。它们在SHMetro和HZMetro数据集上的表现分别总结于表II和表III中。可以看出，基准HA在所有时间间隔上均得到不可接受的平均绝对百分比误差（在SHMetro上约为31%，在 HZMetro上约为20%）。与HA相比，RF和GBDT在第一个时间间隔可以获得更好的结果。然而，随着时间的推移，它们的平均绝对百分比误差逐渐变差，甚至超过HA，因为这两种传统模型学习客流量分布的能力较弱。通过从数据中自动学习深层特征，那些通用神经网络（例如MLP、LSTM和GRU）可以显著提升性能。例如，LSTM在预测第一个时间间隔的客流量时，在SHMetro上获得18.76%的平均绝对百分比误差，在HZMetro上为14.91%；而GRU在预测第四个时间间隔时，在SHMetro上获得21.03%的平均绝对百分比误差，在 HZMetro上为17.20%。得益于先进的图学习方法，DCRNN和GCRNN将SHMetro上的平均绝对百分比误差降低至17.82%，HZMetro上降低至14.00%，取得了具有竞争力的性能。然而，这些方法直接基于物理拓扑构建图。为了充分捕捉客流量的复杂模式，我们提出的PVCGN结合物理拓扑和人类领域知识构建物理/虚拟图，从而实现了最先进的性能。例如，我们的PVCGN在SHMetro数据集上不同时间间隔的平均绝对百分比误差至少提升了1%。在HZMetro上，PVCGN在所有指标上均大幅优于现有的最佳模型DCRNN、GCRNN和Graph-WaveNet。这一比较充分证明了所提出的PVCGN的优越性。

2) 高峰时段对比:

在本节中，我们重点关注高峰时段的客流预测，因为在此期间准确的预测结果对地铁调度至关重要。本文中，高峰时段定义为7:30‐9:30和 17:30‐19:30。所有方法的性能总结于表IV和表V中。我们可以观察到，我们的PVCGN在两个数据集上始终优于所有对比方法。在SHMETRO上，我们的PVCGN在第一个时间间隔的客流预测中取得了13.16%的MAPE。而DCRNN和GCRNN的平均绝对百分比误差分别为13.93%和14.07%。其他深度学习方法（如MLP、LSTM和GRU）相对表现较差。在预测第四个时间间隔的客流量时，我们的PVCGN达到15.08%的平均绝对百分比误差，相比 DCRNN和GCRNN至少实现了9.04%的相对提升。在HZMetro上也存在类似的性能比较情况。例如，在第一个时间间隔的客流量预测中，我们的PVCGN获得9.72%的平均绝对百分比误差，无疑优于DCRNN和GCRNN，后两者的平均绝对百分比误差分别为10.37%和10.36%。在预测第四个时间间隔的客流量时，我们的PVCGN取得了非常令人印象深刻的10.43%平均绝对百分比误差，而DCRNN和GCRNN则出现了严重的性能下降。例如，它们的平均绝对百分比误差迅速上升至11.94%和11.93%，分别。综上所述，在SHMETRO和HZMetro数据集上的大量实验表明了我们的方法在高峰时段的有效性和鲁棒性。

3) 高客流车站比较：

除了高峰时段的预测外，我们还关注一些高客流量车站的预测，因为在实际地铁系统中这些站点的需求应被优先考虑。在本节中，我们首先根据训练集的历史客流量对所有地铁站进行重新排序，并在前1/4高客流车站上进行对比分析。在上海地铁上的性能表现总结于表VI，我们可以观察到我们的PVGCN排名第一在所有对比方法中表现最佳。在预测未来15分钟的客流量时，PVGCN的均方根误差（RMSE）为74.80，平均绝对百分比误差（MAPE）为10.62%。相比之下，其他方法的最佳 RMSE和MAPE分别为80.72和12.23%。当预测时间延长至60分钟时，我们的PVGCN仍能获得最优结果（例如，MAPE为13.61%），而GCRNN的MAPE显著上升至18.16%。如表VII所示，我们的PVGCN在HZMetro数据集上也取得了令人瞩目的性能。在第一个时间间隔的客流量预测中，PVCGN的RMSE和MAPE分别为60.56和9.97%，而现有表现最佳的方法GCRNN的RMSE和MAPE分别为65.29和10.59%。在预测第四个时间的客流量时，我们的PVCGN性能略有下降。例如，其均方根误差和平均绝对百分比误差分别上升至69.25和12.54%。在相同情况下，GCRNN的均方根误差和平均绝对百分比误差分别上升至80.34和14.74%。因此，我们可以得出结论：我们的PVCGN不仅对高客流量车站的预测有效，而且具有较强的鲁棒性。

4) 效率对比：

最后，我们比较了五种深度学习方法的推理效率。需要注意的是，所有方法均在同一块NVIDIA Titan-X GPU上运行，其运行时间总结于表VIII中。可以看出，LSTM和GRU是最高效的模型，而GCRNN和GCRNN每次推理耗时为0.0121 ∼ 0.0156秒。尽管使用了三个图，我们的PVCGN仍能实现较为实用的效率。具体而言，PVCGN在 SHMETRO上仅需0.2298秒，在HZMETRO上仅需0.0503秒即可预测下一小时的城市级地铁客流量。综上所述，所有方法均可实时运行，推理效率并非该任务的瓶颈。

C. 组件分析

1) 不同图的有效性：

我们工作的显著特点是将物理图和两个虚拟图引入门控循环单元（GRU），以协同捕捉复杂的流量模式。为了验证每种图的有效性，我们实现了PVCGN的五种变体，具体描述如下:

P‐Net ：该变体仅利用物理图实现客流量预测网络；
P+S‐Net ：该变体结合物理图和虚拟相似性图构建；
P+C‐Net ：与P+S GRU类似，该变体基于物理图和相关性图构建；
S+C‐Net ：不同于上述包含物理图的变体，该变体仅由虚拟相似性/相关性图构建；
P+S+C-Net : 该网络是所提出的PVCGN的完整模型，同时包含物理图和两个虚拟图。

所有变体的性能总结见表IX。为了预测下一时间间隔（15 分钟）的客流量，基线P‐Net在SHMETRO上的平均绝对百分比误差为19.04%，在HZMETRO上为14.84%，在所有变体中排名最后。通过聚合物理图和任一提出的虚拟图，变体P+S‐Net和 P+C‐Net在所有评估指标上均实现了明显的性能提升。例如，P+S‐Net将SHMETRO的均方根误差从50.45降低至47.38，将 HZMETRO的均方根误差从41.80降低至38.89。而P+C‐Net将RMSE分别降低至46.18和39.46。此外，我们观察到变体S+C‐Net也能取得极具竞争力的性能，即使它不包含物理图。在SHMetro数据集上，S+C‐Net获得46.52的RMSE，相对于P‐Net实现了7.8%的相对提升。在 HZMetro数据集上，S+C‐Net同样通过将RMSE降至39.92取得了类似的改进。这些现象表明所提出的虚拟图具有合理性。最后，变体P+S+C‐Net通过将物理图和所有虚拟图结合进网络中，能够获得最佳性能。具体而言，P+S+C‐Net取得了最低的RMSE（SHMetro上为44.97，HZMetro上为37.73）和最低的MAPE（SHMetro上为16.83%，HZMetro上为13.72%）。这一显著改进主要归因于通过协作的物理/虚拟图网络学习到的增强时空表征。这些对比验证了这些定制化设计的图在单一时段预测中的有效性。

此外，我们发现这些协作图对于连续时间间隔的客流量预测也有效。如表IX底部九行所示，当时间间隔数量从2个增加到4个时，所有变体在一定程度上均出现性能下降。例如，当基线P‐Net用于预测未来第四个时间间隔（60分钟）的客流量时，SHMETRO上的均方根误差迅速上升至73.06，HZMETRO上则升至56.32。相比之下，由于所提出的虚拟图能够促使这些变体学习复杂的流量模式，P+S‐Net和P+C‐Net实现了更低的均方根误差（SHMETRO上约为60，HZMETRO上约为44）。通过融合所有物理/虚拟图，P+S+C‐Net进一步提升了性能，在 SHMETRO上的均方根误差为55.27，在HZMETRO上为42.51，这表明这些图是互补的。

2) 局部与全局特征的影响:

如第三节-C所述，采用图卷积门控循环单元（GC‐GRU）进行局部特征学习，而全连接门控循环单元（FC‐GRU）用于学习全局特征。在本节中，我们训练了两个变体以探究每种特征对地铁客流量预测的影响。第一个变体仅包含GC‐GRU，第二个变体则由GC‐GRU和FC‐GRU组成。这些变体的结果总结于表X中。我们可以观察到，第一个变体的性能非常具有竞争力。例如，在预测未来15分钟的客流量时，该变体在 SHMetro上的RMSE为45.64，在HZMetro上为38.46。对于第四个时间间隔的预测，其在SHMetro上的MAE为26.50，在HZMetro上为25.36，略逊于PVCGN完整模型。这种具有竞争力的性能归因于我们能够通过定制的物理/虚拟图有效学习语义局部特征。通过融合 GC‐GRU/FC‐GRU的局部/全局特征，第二个变体能够在一定程度上提升性能。例如，在预测第二个时间间隔的客流量时，SHMetro上的RMSE从48.79降低至47.83。通过这些实验，我们可以得出结论：局部特征在客流预测中起主导作用，而全局特征提供了辅助信息。

3) 稳定性验证:

继[17],[64],之后，我们也检验了提出的PVCGN的稳定性。除了在第四节-B中全面评估的正式模型外，我们还实现了另外四个PVCGN模型，因为一些随机因素（例如参数初始化、样本打乱）可能会影响最终结果。由于篇幅限制，这些额外模型的详细性能展示在我们的补充材料中。所有实现的模型的均值和标准差总结于表XI中。我们可以观察到，两个基准数据集上所有模型的平均性能与正式模型非常接近，且偏差非常小。此外，PVCGN中最差模型的表现仍优于其他对比方法。该实验表明PVCGN是稳定的。

五、应用于在线起讫预测

在本节中，我们采用所提出的PVCGN来预测 SHMetro数据集上的在线地铁起讫（OD）客流量。与出租车起讫需求预测[16],相比，地铁OD客流量预测更具挑战性，因为在在线地铁系统中无法立即获得完整的OD分布[72]。例如，如图4所示，在过去15分钟内有385名乘客从第i站进站，其中已有244人到达目的地。其余乘客的目的地尚不清楚。因此，我们只能基于已完成订单构建站点i的不完整OD向量。此外，由于OD分布非常稀疏，我们仅考虑从站点i到前十站点的客流量（即其乘客最可能到达的站点），以及到其余站点的总客流量。因此，OD向量的长度为11。具体而言，$X_{I_i}^t(j)$表示前往第j个最相关站点的客流量，而$X_{I_i}^t(11)$表示前往其余站点的客流量。为方便起见，将时间间隔t时所有站点的不完整OD客流量记为$X_I^t=(X_{I_1}^t,X_{I_2}^t,…,X_{I_N}^t ) \in R^{11×N}$。给定一段历史序列的不完整OD客流量，我们的目标是预测一段未来序列的完整OD客流量:
$$
\hat{X} C^{t+1}, \hat{X}_C^{t+2}, …, \hat{X}_C^{t+m} = \text{PVCGN}(X_I^{t-n+1}, X_I^{t-n+2}, …, X_I^t)
$$
其中 $\hat{X}_C^{t+1}=(\hat{X} {C_1}^{t+1}, \hat{X} {C_2}^{t+1}, …, \hat{X} {C_N}^{t+1}) \in R^{11×N}$ 和 $\hat{X}_{C_i}^{t+1}$ 是车站i的预测完整 OD客流量。序列长度n和m均设为4。与前一节相同，均方根误差、平均绝对误差和平均绝对百分比误差作为评估指标。在计算平均绝对百分比误差时，我们参考[14]进一步过滤真实客流量小于10的部分起讫对，因为平均绝对百分比误差对低客流量较为敏感，而我们也不关注此类低客流量场景。

我们将PVCGN与一种基线方法（即历史平均法，HA）以及四种基于深度学习的方法在在线起讫点客流量预测任务中进行了比较。如表十二所示，PVCGN在所有时间间隔内均表现出卓越性能，并以显著优势优于其他方法。特别是在第四个时间间隔，PVCGN降低了平均绝对百分比误差达到24.52%，相比基准HA有28.7%的相对提升。这是因为我们的PVCGN能够从物理图与虚拟图中有效学习起讫量模式。该实验表明了我们的PVCGN在在线起讫点客流量预测中的普适性。

示意图3

VI. 结论

在本研究中，我们提出了一种统一的物理‐虚拟协同图网络（Physical‐Virtual Collaboration Graph Network），用于解决地铁站级客流量预测问题。与以往工作不同，这些工作要么忽略了地铁系统的拓扑信息，要么仅直接基于物理拓扑进行建模；而我们将所研究的地铁系统建模为一个物理图和两个虚拟相似性/相关性图，以充分捕捉客流量演化模式。具体而言，物理图基于地铁系统的实际拓扑结构构建；相似性图和相关性图则在历史客流相似性和不同站点间的相关性指导下，通过虚拟拓扑结构构建。我们将这些图引入图卷积门控循环单元（GC‐GRU）中以学习时空表征，并采用全连接门控循环单元（FC‐GRU）来捕捉全局演化趋势。最终，利用这些 GRU构建序列到序列模型（Seq2Seq model），实现对各站点客流量的预测。为了验证所提出方法的有效性，我们基于上海地铁和杭州地铁的大规模交易记录构建了两个真实世界基准，大量实验结果表明提出的PVCGN具有优越性能。

在未来工作中，我们将更加关注在线起讫点客流量预测，并应考虑几项改进。首先，未完成订单的数据也可以提供一些有用信息，我们尝试估计未完成订单的潜在OD分布。其次，地铁客流量呈周期性演变。例如，每个工作日 9:00的客流量通常相似。因此，我们还应利用起讫点客流量的周期性分布来促进表征学习。最后但同样重要的是，一些外部因素（如天气和节假日事件）可能会显著影响客流量的变化，我们应结合这些因素来动态预测客流量。