基于多分辨率时空深度学习的OD预测

原创于 2025-10-26 03:28:30 发布 · 689 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#OD预测 #深度学习 #小波变换 #ConvLSTM #注意力机制

部署运行你感兴趣的模型镜像

城市轨道交通系统中的动态起讫点预测：一种多分辨率时空深度学习方法

摘要

短期需求预测通常定义为对未来一小时内的预测，在公共交通应用中对于实施动态控制策略和提供有用的乘客信息至关重要。了解预期需求使交通运营商能够在需求激增之前提前部署实时控制策略，从而最大限度地减少异常情况对服务质量和乘客体验的影响。需求预测模型在公共交通中最有用的应用之一是预测车站站台拥堵和车厢拥挤情况。这些应用需要起讫点（ OD）需求的相关信息，以详细描述乘客进出服务的时间和方式。然而，现有文献研究有限，且绝大多数集中于预测车站的到达量。尽管该信息具有实用性，但对于许多实际应用而言仍不完整。为弥补这一不足，我们提出了一种可扩展的方法论，用于公共交通系统中的实时短时OD需求预测。我们所提出的模型包含三个模块：采用通道注意力模块来捕捉局部空间依赖性的多分辨率空间特征提取模块、用于编码外部信息的辅助信息编码模块（AIE），以及用于捕捉需求时间演化的模块。在时间t的OD需求以N × N矩阵表示，并通过两个独立分支进行处理。在一个分支中，我们使用离散小波变换（DWT）将需求分解为不同的时间和频率变化成分，以检测原始数据中不可见的模式；在另一个分支中，则利用三层卷积神经网络（CNN）直接从OD需求中学习空间依赖性。我们并未平等对待变换结果的每个通道，而是采用SE模块对特征图根据其对最终预测的贡献进行加权。随后，使用卷积长短期记忆网络（ConvLSTM）捕捉需求的时间演化过程。本方法通过香港地铁（MTR）系统的2个月的自动售检票（AFC）数据进行案例研究加以验证。对模型的全面评估表明，相较于其他对比方法，我们所提出的模型具有更优性能。

引言

在近年来，实时数据的激增促使人们越来越关注利用这些数据在需求激增之前实施动态自适应策略，以防止服务质量恶化。此类策略包括但不限于：1）调整服务间隔或增加服务频次；2）向乘客发布信息，预告即将发生的需求激增，从而激励部分乘客延迟出行或改变出行时间；3）实施客流管理策略，避免站台过度拥挤[1]。现有文献研究主要集中于车站短时乘客到达量预测，通常称为“客流量”。然而，尽管站点到达预测具有一定价值，真正对实施上述诸多策略至关重要的信息是起讫点（OD）需求，因为它提供了乘客进出系统的详细时空分布情况。例如，用于信息发布和公共交通网络情景评估的实时交通决策支持系统 [2],[3],高度依赖准确的OD信息。已有研究表明[4]，依赖历史平均值的站台和列车拥挤预测与基于最新信息的实时预测相比，在高峰期可能显著偏离真实值。这种不准确性进而导致：1）向乘客传达关于车辆拥挤程度的不准确信息，损害其对信息的信任；2）制定出次优控制策略。这凸显了实现实时、准确的起讫点需求预测的重要性。

本文提出了一种用于公共交通系统中可扩展、实时、短期起讫点需求预测的方法论。客流量与起讫点需求之间的一个关键区别在于问题的维度。假设一个公共交通网络中有N个车站，起讫矩阵在每个时间间隔（例如15分钟）内的维度为N ×N 。此外，不仅连续时间间隔的起讫点需求之间存在相关性，它们还受到起点站乘客到达量的影响。以往大多数关于起讫点预测的研究集中在开发单变量模型，即每一起讫流对应一个模型。然而，考虑到问题的高维度，这种方法不具备可扩展性，实际应用受限。受深度学习模型在其他领域成功应用的启发，我们提出一种端到端深度神经网络解决方案来解决这一起讫点预测问题。我们总结了以下贡献:

1) 我们提出了一种新颖的、可扩展的深度学习架构，用于基于出口观测的交通网络实时起讫点预测。
2) 我们提出了一种多分辨率时空神经网络模型（MRSTN），该模型能够捕捉时空依赖性，其中采用离散小波变换对需求进行多分辨率分解。
3) 我们在香港地铁（MTR）系统全网进行了所提模型的测试，并通过实验证明了我们的模型相较于其他对比模型具有更优性能。

本文的其余部分组织如下。第二节回顾了关于需求预测的先前研究，包括站点到达量和起讫点流量。第三节描述了所提出的MRSTN方法论。在第四节中，我们展示了一个案例研究，应用港铁系统的数据来实施我们的方法论，并提供了广泛的实验结果。最后，第五节总结了本文并讨论了未来的工作。

II. 相关工作

关于短时交通流量预测，已有大量研究。[5],[6]对该主题的文献进行了全面综述。这些方法大致可分为传统时间序列模型，特别是ARIMA模型[7]–[9],、线性回归模型[10],[11],、神经网络[12]–[16],、非参数回归[10],[17],以及状态空间模型[18],[19]。针对短时站点到达量预测方法的研究也日益增多。在[20],中，作者使用动态因子模型对伦敦地铁网络中的需求进行多变量预测。近年来，由于深度学习模型在计算机视觉和自然语言处理等任务中表现出色，其应用也逐渐增加。在[21],中，作者采用长短时记忆（LSTM）和全连接层（FC）来预测地铁进出站客流量。[22]提出一种基于多尺度径向基函数网络的方法论，用于在异常情况下进行流量预测。在[23],中，将北京地铁客流量（即站点到达量）数据转换为图像，随后通过卷积（CNN）和双向LSTM层进行处理。在[24]中，作者采用了不同的方法，构建了拓扑、相似性（基于动态时间规整距离）和相关性图，以捕捉不同交通站点之间客流量的依赖关系，并采用一种图神经网络变体进行需求预测。

然而，我们注意到上述所有模型都是为站点到达量设计的，而非起讫点。关于深度学习模型及其在交通领域的应用概述，读者可参考[25]。

关于短期交通起讫点估计与预测的研究已有许多，尤其集中在出租车和网约车行程上（[26]–[28],，[29]–[31]）。然而，交通与公共交通起讫点预测之间存在一个重要差异。在实时情况下，乘客在起点站进站和在目的地出站之间存在时间延迟。因此，在乘客完成行程之前，仅能获得部分数据。相比之下，对于交通应用而言，站点到达需求是完全可观测的。这一重要差异我们将在第三节中加以讨论，并在第四节G部分提供与文献中提出的另一种方法的比较。

对于公共交通系统，起讫点预测传统上主要集中在规划应用上。这部分原因可能是用于起讫点预测所需的数据通常不易获取。在一些公共交通系统中，乘客在目的地无需进行出站刷卡（tap‐out）。在这种系统中，无法直接收集起讫点数据，相关机构必须使用统计技术来推断乘客的出行目的地（[32],[33]）。另一个复杂因素是数据的高维度问题；一个包含N个车站的网络包含N ×N个起讫对，而为每个起讫对单独建立模型的传统方法不具备可扩展性。[34]采用动态贝叶斯网络对巴黎地铁线路连续车站之间的短期列车客流预测进行了研究，报告指出其模型整体表现优于基于历史平均值的预测结果。最近，[35]提出了一种混合模型，能够准确地多步超前预测客流量，但该模型需要针对每个起讫对独立且分别进行估计和构建。相比之下，我们所提出的模型可以为整个网络提供预测。据我们所知，唯一其他明确解决数据采集延迟问题的研究是[36],[37]，其中作者基于不完整进站的起讫点数据，利用非负矩阵分解来预测真实起讫点需求。在第四节G部分，我们将我们的方法与他们的方法进行比较，并突出两者之间的差异。

三、方法论

A. 预备知识

我们将每个时间间隔内的起讫点矩阵ODt ∈ RN×N表示为一个二维矩阵，其中N表示公共交通网络中的车站数量。具体而言，ODt(i, j)表示在时间间隔t内到达起点站i并前往车站j的需求。需要注意的是，某次出行的最终目的地仅在其行程结束时才能被观测到。换句话说，真实 ODt(i, j)只有在经历一段依赖于旅行时间和公交时刻表的时间延迟后才能被观测到，这一延迟甚至可能长达一小时或更久。这是与到达预测问题的一个重要区别，在到达预测问题中，所有在应用预测模型之前的到达量都是可观测的。因此，我们区分了模型估计阶段所拥有的信息与实时情况下的信息。在模型估计阶段，真实起讫点需求可以从历史自动数据采集（AFC）交易数据库中获取。令ODt(i, j)表示在时间间隔t内从车站i出发、前往车站j的需求。这些出行可能要经过多个时间间隔后才完成。然而在实时情况下，我们只能获得由出站记录所揭示的部分起讫点信息。

计数。设ODexits t表示基于出站的起讫矩阵，其中ODexits (i,j)表示在时间间隔t内从车站j出站且出发站为车站i的乘客数量。我们的目标是从ODexits t−h, h= H…0预测ODt+k (i,j), k= 1…K，其中k为预测视界，H为回溯窗口。

我们提出的模型（MRSTN）包含三个模块，如图1所示：一个多分辨率空间特征提取模块，用于捕捉局部空间依赖性；一个辅助信息编码模块（AIE），用于捕捉外生事件的影响；以及一个用于捕捉需求时间演化的模块。每个ODexits t−h被表示为一个矩阵（图像），并在两个独立的分支中进行处理。在一个分支中，我们使用离散小波变换（DWT）将需求分解为其不同的时间和频率变化。这种分解能够生成更丰富的输入表示，在许多信号和图像处理任务中已被证明是一种有效的技术（[38],[39]），并能检测到原始数据中不可见的模式。每个子带随后通过卷积神经网络（CNN）进一步处理，以获得其特征编码。在另一个分支中，采用带有跳跃连接的三层卷积神经网络直接从起讫点需求中学习空间依赖性。此外，一个独立的模块（AIE）用于编码辅助信息，包括起点站的乘客到达量、天气状况和一天中的时间。这些特征图被拼接起来，以提供对原始需求矩阵的情境化、多视角表示。然后，我们使用一个squeeze-and-excitation层（SE模块）根据各特征图对最终预测的贡献对其进行加权。接着使用卷积长短期记忆网络（ConvLSTM）来捕捉需求的时间演化。所得的特征图随后通过两个卷积神经网络进行传递。在接下来的章节中，我们将详细描述模型的每个组成部分。

示意图0

B. 离散小波变换

离散小波变换（DWT）是预测任务中一种强大的特征提取工具（[40]–[42]）。部分原因在于，小波将傅里叶变换的概念扩展到了更通用的正交基，通过在时间和频率上局部化的小波（因此得名“小波”）的组合来表示输入信号。与傅里叶变换相比，小波具有两个重要特性：多分辨率和正交性。多分辨率能够通过放大和缩小来分析图像，捕捉不同的时间和频率变化，有助于分析来自多尺度过程的信号[43]。正交性意味着DWT各通道之间不存在冗余[44]。以往大多数研究集中在单变量时间序列上，因此使用了一维离散小波变换。一维离散小波变换将任意一级别的信号分解为另一更高级别的两个子带：近似和细节。对于二维图像，行和列被视为一维信号，在每轮离散小波变换中分别对行和列进行两次处理。通常，子带的系数被用于增强那些来自原始输入，然后被输入到监督学习算法中。

设I为大小为M乘N的输入起讫矩阵。二维离散小波变换将该矩阵分解为四个子带:
LL(m, n)= 1 √MN
M−1
∑
x=0
N−1
∑
y=0
I(x, y)ϕm,n(x, y)
LH(m, n)= 1 √MN
M−1
∑
x=0
N−1
∑
y=0 I(x, y)ψ H m,n(x, y)
H L(m, n)= 1 √MN
M−1
∑
x=0
N−1
∑
y=0 I(x, y)ψ V m,n(x, y)
H H(m, n)= 1 √MN
M−1
∑
x=0
N−1
∑
y=0 I(x, y)ψ D m,n(x, y) (1)
其中ϕm,n(x,y)是不同尺度和位置的尺度函数；ψ H m,n(x,y), ψ V m,n(x,y)和ψ D m,n(x,y)是不同尺度和位置的小波函数。因此，在每一层得到四个子带图像，其中三个子带图像LH、 HL、HH分别是沿水平、垂直和对角方向的细节图像（图 2）。尺度函数和小波函数由:给出
ϕm,n(x, y)= 2j/2ϕ(2j x −m, 2j y − n)
ψi m,n(x, y)= 2j/2ψi(2j x −m, 2j y − n), i={H, D, V} (2)
其中， ϕ是尺度函数， ψ表示小波函数；H,D和V分别表示水平、垂直和对角方向；j为分解层级。离散小波变换放大了不同频率子带的特征，使MRSTN能够检测到原始数据中不可见的模式。正如我们在第四节中所示，这显著提高了预测性能。

示意图1

C. 多分辨率空间特征提取

第一层利用卷积神经网络来捕捉空间交互。每个ODexits t−h , h= H…0被送入两个分支。在第一个分支中，它依次经过3个CNN模块，每个模块包含一个卷积层，后接一个批量归一化层和一个ReLU激活函数。这3个CNN模块中的滤波器数量分别为64、128和128，卷积核大小为 3 × 3。由于我们希望输出与输入具有相同的维度，因此使用步长为1且不进行池化。该分支的输出F1 thus calculated as:
F1= Conv(OD exits t−h , W1) (3)
其中W1表示卷积层的权重。在另一个分支中，一级二维离散小波变换将ODexits t−h 分解为四个子带，以捕获数据中不同的时间和频率变化（图2）：LL（近似矩阵）、LH（水平矩阵）、HL（垂直矩阵）和HH（对角矩阵）。本文使用Daubechies 2作为母小波

每个子带进一步通过一个包含64，3×3 1, 个滤波器、步长为的卷积神经网络进行处理，后接批量归一化层和ReLU激活函数。该分支的输出F2,因此为:
F2= Conv(LL, W2)⊕ Conv(H L, W3) ⊕ Conv(LH, W4) ⊕ Conv(H H, W5) (4)
其中 ⊕表示拼接操作。来自两个分支的学习到的特征图随后被拼接在一起。我们还使用跳跃连接以避免梯度消失问题。这些模块共同从起讫对之间的局部空间依赖性中提取日益复杂的层次化需求模式。

D. 辅助信息编码（AIE）

令A t ∈R N×1 , At=[at ,1, at ,2,…, aN, t]表示由乘客到达量组成的N维列向量在时间间隔t内各车站的客流量，其中N 表示公共交通网络中的车站数量。我们将At 扩展为与ODexits t 相同的形状，即N ×N。一天中的时间t和天气状况也被扩展，并沿输入张量的空间维度进行拼接。我们使用Dark Sky API[45] 提取案例研究期间的天气状况信息。天气状况被分为正常、雨天和雪天三类，并采用独热编码对这些条件进行编码。这三个输入（At、一天中的时间以及天气状况）被拼接后，输入到一个包含64个大小为3× 3、步长为1的滤波器的卷积神经网络中。令FAux 表示该变换的输出。

E. 压缩与激励层

所有先前变换的输出随后被拼接在一起，从而提供信息的多视角编码，即：
F3= F1 ⊕ F2 ⊕ OD exits t−h ⊕ FAux (5)
F3 ∈ R H×W×C将所有可用信息编码为一个具有C个通道的张量。然而，直接将该张量用于后续卷积操作会导致每个通道被同等对待。为此，我们采用[46]提出的 squeeze-and-excitation（SE）模块来学习各个通道的重要性。该模块有效充当一种门控注意力模块，能够学习对预测任务中更具信息量的通道赋予更高的权重。根据[46],中提出的机制，我们首先通过空间维度（H、W）对变换输出 F3进行squeeze操作，使用全局平均池化生成逐通道统计z ∈ R C，其中第c个元素的计算公式为: zc= Fsqueeze(F3,c)= 1 H × W H ∑i=1 W ∑ j=1 F3,c(i,j) (6)
使用卷积滤波器生成逐通道统计的主要缺点是它们仅能提取局部感受野内的信息。相比之下，压缩函数能够利用局部感受野之外的上下文信息。通过压缩操作对每个通道的信息进行汇总后，一个excite变换Fexcite作用于其输出，以捕捉通道间相互依赖性。具体而言，采用带有Sigmoid激活函数的简单门控机制，如下所示:
s= Fexcite(z, W)= σ(g(z, W))= σ(W2δ(W1z)) (7)
其中 σ是Sigmoid函数， δ是ReLU函数。W1 ∈ R C r × C参数化一个全连接层（FC层），该层根据压缩比r降低输入维度，W2 ∈ R C× C r表示第二个全连接层的参数，用于将输出重新缩放到维度c。这两个全连接层共同构成一个瓶颈层，已被证明在提升泛化能力和限制模型复杂度方面有效。本文中我们采用[46]推荐的r= 16。最后，该模块的输出为:
xc= Fscale(F3,c, sc)= sc · F3,c (8)
其中Fscale表示学习到的特征图F3,c ∈ R H×W与标量sc之间的通道级乘法，而X=[x1, x2,…, xC]表示SE模块的加权输出。

F. 时间特征提取

卷积LSTM网络是LSTM模型的一种变体，首次在[47]中提出。使用LSTM捕捉时间依赖性的缺点在于其无法利用输入中编码的空间信息。卷积LSTM通过在输入到状态和状态到状态转换中引入卷积结构来解决这一问题，这些结构可以进行端到端训练。设X t ∈ RH×W×C表示时间t的三维输入张量，根据公式8计算得到。卷积长短期记忆网络通过网格中某个单元格的局部邻居的输入和过去状态来确定该单元格的未来状态。在每个时间步t，卷积LSTM单元接收三个输入：过去的细胞状态Ct−1、X t以及该单元格的前一隐藏状态Ht−1。输入门it控制来自其过去输入的信息累积，遗忘门f t决定过去细胞状态Ct−1应被遗忘的程度，最后，Ot决定从Ct中有多少信息应被存储到隐藏状态Ht中。数学上可表示为:
it= σ(Wxi ∗ X t+ Whi ∗ Ht−1+ Wci Ct−1+ bi)
f t= σ(Wxf ∗ X t+ Wh f ∗ Ht−1+ Wcf Ct−1+ b f)
C˜t= tanh(Wxc ∗ X t+ Whc ∗ Ht−1+ bc)
Ct= f t Ct−1+it C˜t
ot= σ(Wxo ∗ X t+ Who ∗ Ht− 1+ Wco Ct+ bo) H t= o t tanh(Ct) (9)
其中 ∗ 表示卷积算子，是哈达玛积，而 σ 是 Sigmoid函数。ConvLSTM层的输出随后通过两个分别具有128个和1个（即最终预测）滤波器的CNN模块进行变换，步长为一且无池化层。

G. 实现细节

我们使用Tensorflow[48]来实现所提出的方法。我们使用了初始学习率为 10−4的Adam优化器[49]。损失函数是预测需求与真实值之间的平均绝对误差（MAE）。选择MAE而非均方根误差（RMSE）的一个原因是，RMSE对大幅偏差的惩罚比MAE更严厉。考虑到需求分布的情况，即少数起讫点吸引了大部分需求，RMSE会导致对较不繁忙的起讫对的预测结果显著变差。对于离散小波变换，我们使用了Python中的PyWavelet库[50]。该模型在Google协作平台使用一个T4 GPU进行训练需要2小时。

IV. 案例研究

A. 数据

我们使用香港地铁（MTR）系统的数据对所提出的模型进行了评估。该网络包含97个车站。当乘客进出系统时会记录交易信息，从而揭示进站、出站的车站以及时间戳。我们使用了2018年十月和十一月共两个月的自动售检票交易数据，排除了周末，总计40天。其中最后7天用于测试，其余时间用于模型训练。每天被划分为15分钟区间，目标是预测未来15分钟的起讫点需求。

B. 预处理

为避免梯度爆炸并加速随机梯度优化，应对输入进行归一化。在训练过程中，我们使用最小‐最大归一化将每一起讫点对i,j 的起讫点需求归一化至[0, 1] 范围内；
ODexits i,j= ODexits i,j − min(OD exits i,j) max(OD exits i,j) − min(OD exits i,j) (10)

C. 评估指标

我们使用平均绝对误差（MAE）和均方根误差（RMSE）来评估所有模型的预测性能，定义为:
MAE= 1 n n ∑ i=1 |y p i − y o i | (11)
RMSE= √∑ n i=1(y p i − y o i) 2 n (12) 其中y p是预测值，y o是真实的观测需求，n是样本点的数量。

示意图2

D. 预测精度

我们将起讫点需求根据其在高峰15分钟时间间隔内的平均需求分为三类（高、中、低），以更好地评估预测精度（表I）。我们将模型的性能与以下基线进行比较:
- 历史平均法（HA）：对于每个时间间隔t，我们使用∑ nm=1(ODi,j,t,m)n作为预测需求，其中ODi,j,t,m表示第m天起讫点对i,j之间的需求。
- ARIMA:我们使用[51]中的 auto.arima 函数为每一对OD自动估计一个ARIMA模型。
- 支持向量回归（SVR）：对于每一对ODi和j，我们使用ODexitsi,j,t−H,H= 5…0来预测真实的OD需求。
- CNN:在此，我们移除了MRSTN中除上层分支外的所有组件，即仅保留3个卷积神经网络层。
- LSTM:我们为每对OD使用一个具有64个单元的简单LSTM网络。
- 卷积长短期记忆网络: 我们将输入直接馈送到ConvLSTM层。
- ST-ResNet:我们采用由[52]提出的架构。
- MRSTN - SE - DWT - 到达量: 我们从MRSTN中移除了DWT分解、起点站的乘客到达以及SE模块。
- MRSTN- SE- DWT:我们从MRSTN中移除了DWT分解和SE模块。
- MRSTN- SE:不包含SE模块的完整MRSTN网络。
- MRSTN- DWT:不包含DWT分解的完整MRSTN网络。
- MRSTN:完整的MRSTN网络。

测试集上的预测性能如表II所示，针对未来15分钟（单步）的预测。完整的MRSTN在所有需求分布下均优于其他模型。ST‐ResNet表现也非常具有竞争力，尤其对于高需求OD对，尽管仍逊色于MRSTN。然而，DWT和 SE层的联合效应（我们架构与ST‐ResNet的主要区别）显著提升了中低需求OD对的预测效果。这一点并不令人意外；离散小波变换将原始输入分解为多个图像，其中一些图像特别捕捉了低需求对（图5）。我们将在第IV‐F节进一步探讨这一观察结果。我们注意到SE模块的重要性：从 MRSTN中移除SE模块会使高需求站点的MAE增加3.2；而移除DWT组件则使MAE增加1.2。这一观察表明，在融合非均匀将信息整合到一个张量中，并将通道视为同等重要，可能导致次优结果。图3展示了一些预测值与真实值起讫点需求的对比示例。关于模型在中等和低需求车站（分别为右上和底部）的表现，可以得出一个有趣的观察结果。对于这些起讫对，时间间隔之间的需求波动显著，导致出现非平滑的锯齿模式。然而，MRSTN能够学习捕捉数据的潜在趋势，从而避免因跟随锯齿模式而产生的较大惩罚。这是其性能优于其他模型的原因之一。

示意图3

图4展示了测试集中某一天起讫矩阵随时间的演变情况。图4a显示了真实值，图4b则是同一时间间隔的预测起讫矩阵。此处，起讫对越繁忙，其颜色越接近红色。可以看出，该模型能够有效捕捉空间和时间上的需求模式，特别是对于高需求和中等需求的起讫对。

示意图4 测试集中某一天7点、8点、9点、17点和19点观测到的OD矩阵，从左到右依次排列。(b) 相同时间和日期的OD矩阵15分钟前预测。)

E. 向前预测视野与预测精度

我们进一步实验以评估MRSTN在更长预测视野下的表现。此处的目标是从ODt+k(i,j), k= 1…0中预测未来15、30、45分钟及一小时的ODexits t−h, h= 5…4。表III提供了长期预测性能的详细分解。可以看出，尽管随着预测视野的扩大，预测精度有所下降，但MRSTN在每个需求类别上仍优于历史平均基线。对于每个长期预测任务的 MRSTN参数估计，我们并未从头重新训练模型，而是使用单步预测模型的已学习权重进行初始化并重新训练。这使得预测性能更准确且训练时间更短，每次收敛所需的训练轮次均少于15轮。

示意图5

示意图6

示意图7

F. 理解离散小波变换的作用

在本节中，我们探讨了DWT分解在MRSTN性能中的作用。如表二和表三所示，无论预测时间范围如何，引入 DWT均显著提高了预测精度。在图5中，我们可视化了作用于原始（归一化）起讫矩阵（5b）以及DWT分解的4个子带（5c）的第一层卷积神经网络所学习到的特征图。可以看出，在5b中，所学习到的特征图试图模仿输入数据；而在5c中，任务似乎出现了分离。从近似子带（5c左上角）学习到的特征图重点关注图像对角线附近及左侧繁忙的起讫对。与5b相比，这些特征更集中于最繁忙的车站。相比之下，其余3个子带似乎专注于其他起讫对。具体而言，从垂直和对角近似中学习到的特征对于最繁忙的起讫对大多具有零权重，并且似乎集中在较不繁忙的车站。这是由于DWT分解的正交性特征，这意味着每个子带都专注于学习输入的不同特征，且重叠最小。结果表明，与原始输入相比，这种多分辨率方法使深度学习架构能够从输入图像中学习到更精细的特征。

示意图8 归一化的起讫点需求，(b) 直接从原始（归一化）起讫矩阵学习得到的特征图。(c) 从离散小波变换分解的各个子带学习得到的特征图：近似、水平、垂直和对角矩阵（第三节‐C）。)

G. 基于不完整进站的OD与基于出站的OD对比

[36],[37]的作者建议在实时情况下使用不完整的进站式起讫点数据。具体而言，在当前时间戳t，我们只能观测到在之前的时间间隔t −h内开始出行且经过足够时间后绝大多数人已到达其目的地的行程。令μi,j和 σi,j分别表示从车站i到j的行程时间分布的均值和标准差。此外，令POD,T表示ODT中所有完整条目的指示矩阵，其中POD(i , j),T = 1当 T 与当前时间t之间的时间跨度大于μ i,j +2 ∗σi,j时成立，即我们有约98%的置信度认为如果行程时间呈正态分布，则所有乘客均已到达其目的地。然后根据Pod,tODT计算真实起讫点需求。在表V中，我们报告了将上述输入数据输入MRSTN后得到的结果。显然，准确性显著下降。我们网络中车站之间的行程时间分布（图6）解释了出现这种情况的原因。假设回溯窗口为一小时，在98%的置信度下，仅有约50%的行程已到达目的地（因此具有POD(i,j),T= 1）。这不仅导致矩阵极度稀疏，而且模型可用于调整预测的实时信息也非常少。在 [36],[37]中，作者采用了一种稀疏分解方法，该方法适用于这种数据表示形式，但并不适合深度学习模型。

示意图9

示意图10

V. 结论

本文提出了一种用于城市轨道交通系统实时短期OD需求预测的可扩展方法论。我们的模型包含三个模块：用于捕捉局部空间依赖性的多分辨率空间特征提取模块、辅助信息编码模块（AIE）以及用于捕捉需求时间演化的模块。我们通过香港地铁系统的2个月自动售检票（AFC）数据进行案例研究，验证了该模型优越的预测性能。实验结果表明，通过对OD需求进行DWT分解实现多分辨率分析以及采用通道注意力模块具有重要意义。所提出的模型可作为预测型决策支持系统[4],的一个模块，以支持主动控制措施和高级乘客信息服务生成。

您可能感兴趣的与本文相关的镜像