MePark:基于计时器的停车预测

部署运行你感兴趣的模型镜像

MePark:利用计时器作为传感器进行城市范围路边停车可用性预测

摘要

实时停车位可用性预测对于优化路边停车资源利用和改善交通状况具有重要价值,然而现有停车可用性感知系统的高昂成本限制了其在更多城市和地区的广泛应用。本文提出了 MePark系统,该系统基于易于获取的停车计费器交易数据及其他上下文数据,结合少量专门部署的传感器上报的停车事件数据,实现对城市范围的路边停车位可用性在细粒度时间层级上的实时预测。我们设计了一种迭代机制,有效整合聚合流入预测与个体停车时长预测,以充分挖掘交易数据的潜力。同时,我们从多源数据中提取判别性特征,并结合多图卷积神经网络(MGCN)与长短期记忆网络(LSTM),以捕捉复杂的时空相关性。基于中国深圳为期四个月的真实路边停车数据集进行的大量实验结果表明,我们的方法优于多种基线方法。

索引词

停车可用性预测,时空数据,图卷积神经网络,长短期记忆网络。

I. 引言

WITH 随着城市人口和车辆的持续增加,许多城市正遭受难以解决的停车问题。大多数人口密集地区停车位不足,尤其是路邊停車,常常引发交通拥堵、道路安全、能源浪费和碳排放等各种社会问题。最新调查显示,纽约的司机平均每年花费107小时寻找停车位,耗费成本达 2,243美元。

司机在浪费的时间、燃料和排放上 [1]。如果我们能够预测实时的路边停车位可用性,将能实现许多有用的服务,例如帮助人们提前选择合适的交通方式 [2],[3],,通过智能手机或驾驶辅助系统为途中驾驶员提供停车推荐和导航 [4],[5],,以及协助停车管理机构动态调整停车费率,以提高停车资源利用效率 [6]。

通常需要部署非常密集的传感器来获取实时路边停车占用信息。例如,在旧金山试点区域安装了8,200个地下地磁传感器用于监测路边停车位 [7]。另外,在北京,每隔约200米部署摄像头以监控13,800个路边停车位 [8]。尽管这些传感器可以收集有价值的停车数据,但过高的安装和维护成本限制了它们在更多城市和地区的规模化应用。

此外,基于群智感知的解决方案已被开发用于利用智能手机传感器 [9],[10] 和车载传感器 [11],[12], 监测路边停车位可用性,但这些方案仍会带来额外成本(例如招募参与者的金钱激励)并依赖于现有的停车系统。

本文旨在研究是否可以利用已部署的基础设施和易于获取的数据来预测实时的城市范围路边停车位可用性,而不是完全依赖专门部署的传感器。出于类似目的, Rong 等人利用来自百度地图的移动轨迹和导航数据推断实时停车位可用性[2],,而Arora 等人则通过调查谷歌地图用户获取众包数据,以估计停车难度[3]。尽管他们在测试区域取得了优异的表现,但其成功在很大程度上依赖于足够数量的地图用户所提供的数据。相比之下,我们考虑了另一个重要的数据源——停车交易数据,因为超过 95%的路边收费停车位已由计时器进行管理[5],[13]。此外,各种移动支付方式在停车管理中被广泛使用,这些方式可被视为“虚拟计时器”。

事实上,停车交易数据包含丰富的信息,例如停车者在哪个车位、何时以及支付了多长的停车时长。然而,要有效利用这些交易数据进行停车位可用性预测并非易事。其中一个主要问题在于难以准确获取实际停车时长。预付费规则通常被采用。

对于路边停车而言,准确的离开时间始终无法获得。例如,一个停车者支付了一小时的停车费用,但她/他可能仅使用该停车位30分钟。调查显示,纽约的驾驶员每年为避免罚单而额外增加平均96小时的停车时间,或额外支付896美元的停车费用[1]。然而,大多数现有研究简单地假设停车者在其购买的停车时段结束前不会离开停车位,并利用在时间t时路段块的聚合佔有率(即该路段块内所有计时器中在t之前开始且在t之后到期的交易总数)进行停车位可用性预测,从而导致较大误差[5]。少数研究尝试估计停车时长分布,但由于缺乏充分且准确的数据,这些模型难以实现稳健的泛化能力(例如,在[13]中仅通过人工统计从三条街道收集了两天的数据,时间粒度为10分钟)。

幸运的是,近年来传感和通信技术的进步,例如配备窄带物联网(NB‐IoT)模块的低功耗地磁传感器,使得充足且准确的停车占用数据得以获取。在中国城市深圳,已部署地磁传感器对34,259个停车位进行实时监控,任何停车位占用状态的变化均可立即上报至云端,检测精度超过99.5%[14]。此外,停车位可用性信息已被整合到一个名为Yitingche的应用程序[15],中,该应用程序已成为中国用户注册数量最多(超过300万)的路邊停車产品。然而,由于成本高昂,仍有很大比例(在深圳超过90%)的道路未覆盖传感器。通过结合有限数量传感器上报的历史停车数据、更多无传感器道路中易于获取的停车交易数据,以及其他城市上下文数据(如道路网络、兴趣点(POI)、天气和节假日事件),来预测全市范围的实时路边停车位可用性,具有重要价值。综上所述,我们的主要贡献如下:

  • 我们提出了MePark系统,利用停车计时器作为传感器,基于 readily accessible 的停车交易数据和其他上下文数据,以及来自少量特别部署的传感器报告的停车事件数据 (第三节),在按路段空间层级(深圳平均每路段块23个停车位)和细粒度时间层级(未来30分钟内每10分钟间隔)上实现对全市范围内路边停车位可用性的实时预测。
  • 我们设计了一种迭代停车位可用性预测机制,该机制有效集成了一个流入预测器和一个流出预测器。流入预测器输出下一时间段内每区块的聚合流入量,而流出预测器则独立考虑每位停车者的到达时间,并基于停车时长预测模型预测其离开时间。通过这种方式,可充分挖掘停车交易数据以提升预测性能(第四节)。
  • 我们从多源数据中提取区分性特征。同时,我们将多图卷积神经网络(MGCN)与长短期记忆网络相结合使用长短期记忆网络(LSTM)捕捉复杂的时空数据相关性以进行流入预测(第五节),并设计基于深度学习的概率预测模型用于停车时长预测(第六节)。
  • 我们使用来自深圳1735个传感器的624,464条停车事件记录组成的四个月数据集对MePark的性能进行了评估。结果表明,我们的方法相比最先进的基线方法实现了超过43%的相对误差降低(第七节)。此外,由于其低成本,该解决方案易于在更多城市和地区推广应用。同时,该方案还在深圳开放数据创新应用竞赛中荣获数据创新奖 2019[16]。

II. 相关工作

A. 停车可用性感知

在检测停车占用状态方面,已有大量研究工作。一类方法利用在停车场或车库中专门部署的传感器[17],[18]。近年来,一些研究采用基于窄带物联网(NB‐IoT)的传感器[19]和视频系统[20]–[23]来监控路边停车位。为了降低成本并提高路边停车位可用性感知的可扩展性,另一类工作利用基于群智感知的解决方案,使用智能手机内置传感器[9],[10]和车载传感器[11],[12]。Gkolias 和 Vlahogianni[24]甚至采用车载摄像头来检测路边停车位。然而,这些方法仍然带来额外成本,并依赖于现有的停车系统。相比之下,本文探索第三类方法,即利用已部署的基础设施和易于获取的数据,而非完全依赖专门部署的传感器进行路边停车位可用性感知。在这方面,Rong et al.利用来自百度地图的地图移动轨迹和导航数据[2],,而 Aroraet al.则利用来自谷歌地图用户的历史地理定位数据和匿名调查[3]。然而,这些方法的成功高度依赖足够数量的地图用户数据。不同于此,我们几乎以零成本利用 readily accessible data 停车交易数据和其他城市上下文数据。

B. 停车可用性预测

一种用于停车位可用性预测的技术路线基于停车过程分析[25]–[29]。例如,Xiaoet al. [29]采用连续时间马尔可夫排队模型来预测停车占用情况。然而,这类工作主要侧重于理论分析,并且高度依赖对到达和离开过程的假设,导致难以适应复杂的实际停车场景[30]。另一种流行的技术路线是基于大数据分析和机器学习。针对停车可用性预测,已提出多种模型,涵盖广泛的技术类别,如聚类 [31],自回归积分滑动平均模型(ARIMA)[32],支持向量回归(SVR)[33]–[35],多元自回归[36],回归树[37],以及神经网络[5],[30],[38],[39]。

近年来,由于能够捕捉非线性时空相关性,深度学习已被广泛用于预测各种交通变量,如交通速度 [40],、乘客需求 [41],、交通拥堵 [42],、交通流量 [43]–[46],、公交客流 [47], 以及停车位可用性 [2],[30], ,其性能优于传统模型。例如,Ma 等[40]利用LSTM网络结合远程微波传感器数据进行交通速度预测;Zhang等[43],[44]将城市级交通流量视为图像,并使用卷积神经网络( CNN)来捕捉空间依赖性;一些研究进一步结合CNN和 LSTM以同时建模时空依赖性[45],[46]。Rong 等[2]提出一种名为Du‐Parking的实时停车位可用性预测方法,该方法采用LSTM对时间邻近性和周期性进行建模,同时使用两个全连接层对当前一般因素进行建模。Fan等[30]提出一种多步LSTM模型,并证明其在多个经典机器学习模型上具有优越性,包括门控循环单元(GRU)神经网络模型、堆叠自编码器(SAE)模型、SVR模型以及BP神经网络(BPNN)模型。然而,上述模型仅限于以欧几里得空间中的结构化二维或三维网格数据作为模型输入。相比之下,我们需要在城市级道路网络上捕捉时空相关性,而城市级道路网络是一种典型的图结构。最近,图卷积网络 (GCN)被用于将传统卷积推广到非欧几里得图数据,并已应用于交通速度预测[48]和网约车需求预测[49]。最先进的方法[5]通过结合GCN和LSTM,在停车位可用性预测任务中取得了优异结果,优于LSTM、历史平均值和最新观测值等多个基线方法。相比之下,我们首次将多图卷积网络(MGCN)与LSTM相结合用于停车可用性预测,其中多图卷积能够从道路网络结构和多源数据相关的物理邻接和语义相似性两个角度同时捕捉空间相关性。

C. 停车资源分配与引导

尽管实时停车位可用性信息可以提高找到空闲停车位的概率,但反过来,它使驾驶员行为从搜索转变为争夺停车位,从而导致“多车争抢同一车位”的现象[50]。为解决此问题,已开发出多种停车资源分配与引导方法 [4],[6],[51]–[54]。Geng和Cassandras等[51]以及Kotb 等[6]基于驾驶员成本函数设计了停车预约方案,以优化停车管理者的收入和资源利用率。这些方案主要应用于路外停车,但对于路边停车而言,将所有车位视为可预约资源是不现实的,因为路边停车位属于公共所有且通常是稀缺资源[55]。Wu和Liu[52]设计了一种路边停车推荐服务,通过准确预测成功停车的可能性,减少驾驶员绕行寻找车位的时间。

停车概率。Y. 刘等{v7}设计了一种在线停车引导系统,该系统根据停车位可用性预测实时推荐路边停车位。我们近期的工作{v8}设计了一种多样化需求感知的路边停车引导系统,该系统基于一个多步停车预测模块。尽管路边停车引导的研究超出了本文的范围,但本工作可以通过低成本的停车位可用性预测方案扩展其潜在应用场景。此外,一些研究探讨了停车搜索行为,并构建了驾驶员停车选择模型,以帮助当地管理部门制定高效的停车政策{v9}–{v10},这同样超出了本文的范围。

III. 概述

A. 初步

如图1所示,我们将时间轴划分为相同长度的时间间隔{1, 2,…, T, T +1, . . . , T +Tp}(例如10分钟),其中[(t −1),t ]表示第t个时间间隔,tnow= T表示当前时间。对于任意路段块b,令b.U−T表示在时间tnow之前使用过停车位的停车者集合。每个停车者u ∈b.U−T都有一个档案(u.A, u.D, u.P PD),其中u.A为到达时间,u.D为离开时间,u.P PD为购买停车时长 (PPD)。

定义1(流入/流出) :对于一个路段块 b,其流入量 b.It 和流出量 b.Ot 分别定义为在第 t 个时间间隔内到达和离开该路段块 b 的停车者数量。

定义 2(停车位可用性(PA)) :对于一个包含 b.N 个停车位的路段块 b,其在时刻 t 的停车位可用性 b.PAt 定义为此时空闲停车位的数量,即 ,
b.PAt= b.N − t τ=1 (b.Iτ − b.Oτ). (1)

问题陈述 :假设在一个城市中存在一组配备停车传感器的路段块Bs={b s },以及另一组配备停车计时器的路段块Bm={ bm}。在不失去一般性的前提下,移动支付可被视为“虚拟计时器”。给定一个停车者集合{b s.U−T},其个人资料(us. A, us.D, us.P PD)已知(∀u s ∈bs.U−T),以及另一个停车者集合{b m.U−T},其个人资料中的(um.A, um.P PD)已知但um.D未被观测到(∀u m ∈b m.U−T),同时结合从多源城市上下文数据(如道路网络、兴趣点(POI)、天气、节假日事件和一天中的时间)中提取的相关特征,我们的目标是预测未来周期性时间间隔内任意路段块bm ∈ ∈B m的停车位可用性序列,即{b m.P At|t =T + 1, T + 2, . . . , T + T p}。同时,作为副产品,也可预测任意路段块bs ∈ ∈B s的停车位可用性序列,即{b s.P At|t = T + 1, T + 2, . . . , T + T p}。

B. 框架

大多数关于停车位可用性预测的现有研究都在配备传感器的场景下进行,其中根据方程(1)可轻松获得{PAt|t = 1,2,…, T}的历史时间序列。因此,各种预测模型可用于预测下一个时间间隔或未来一系列{PAt|t= T+ 1, T+ 2,…, T+ Tp}的 PA T+1。然而,本文主要关注使用计时器而非传感器的场景。一个关键问题在于无法获取实际的流出数据,因为计时器无法报告停车者的离开时间。

一种简单的解决方案是将停车者um的离开时间估计为(um. A+ um.P PD),但这会导致较大误差。此外,基于聚合数据的预测方法会丢失来自个体交易的大量有用信息。因此,我们MePark系统的基本思路是,在聚合和个体层面同时考虑停车者的到达与离开行为,并据此分别预测每个时间间隔的流入和流出,然后将其整合以推导出PAs。如图2所示,我们的MePark系统包含两个阶段:离线训练和在线预测,这两个阶段都建立在一个共同组件——隐式特征提取的基础之上。

1) 隐式特征提取 : 该组件的功能是从多源上下文数据 (包括道路网络、興趣點(POI)、天氣、節假日事件和 一天中的时间)中提取对流入/流出具有隐式影响的各种特征。

2) 离线训练 :在此阶段,我们训练一个流入模型以预测每区块聚合流入量,同时训练一个持续时间模型以预测单个停车者的停车时长的累积分布函数(CDF)。流入模型的训练组件使用从计费器数据和传感器数据中提取的历史聚合流入序列以及隐式特征作为样本,并下一时间段的流入作为标签。持续时间模型训练组件使用隐式特征作为样本,并以仅从历史传感器数据中提取的单个停车者的实际停车时长作为标签(计费器数据没有停车时长的真实值)。

3) 在线预测 :在此阶段,我们将流入和流出预测器相结合,以获得一个停车位可用性预测器,用于预测所有设有停车计费器的区域的PAs序列。流入预测器将从实时计费器数据中提取的近期聚合流入序列{It|t= 1,2,…, T}以及隐式特征输入到训练好的流入模型中,并输出流入量序列{It|t= T+ 1, T+ 2,…, T+ Tp}。流出预测器仅将隐式特征输入到训练好的持续时间模型中,并结合流入预测器的输出,得到流出序列{Ot|t= T+1, T+2,…, T+T p}。同时,流入和流出预测器相互交互,以提升各自的预测性能。

示意图0

示意图1

IV. 停车位可用性预测

在本节中,我们开发了一个停车模型来表示单个停车者的到达与离开行为,并基于该模型分别预测每个时间间隔内的流入和流出,然后将两者结合以迭代推导出停车位可用性。

A. 流出预测

不失一般性,我们考虑某个路段块 b 的流出预测。给定先前的停车者流入记录(即在 tnow 之前到达的停车者),我们的目标是预测在未来每个目标间隔 (t −1),t 内将从路段块 b 离开的停车者数量。

为了更好地介绍我们的流出预测机制的思想,我们使用图1中所示的示例进行说明。如图所示,在第 t 个时间间隔内从路段块 b 离开的所有停车者可分为两类:i) 在 tnow 之前到达该路段块的停车者(即蓝色实线),以及 ii) 在 tnow 之后到达的停车者(即红色虚线)。对于第一类,我们需要量化从此前所有在 tnow 之前到达该路段块的停车者群体中,在第 t 个时间间隔内离开路段块 b 的人数。对于第二类,一旦我们对 [tnow,t] 内的每个时间间隔完成流入预测,便可采用类似的方法。流入预测算法将在第五节中详细阐述。

对于第一类停车者 U−T,每个未来时间段的相应流出可以推导为
O(1) t= u∈U − T Pu,t, (2)
其中Pu,t表示停车者u在第b个路段块于第t个时间间隔内离开的概率。停车时长是该模型中的一个重要因素。如果停车时长过短或过长,则离开时间可能不在第t个时间间隔内。此外,如果停车者u在第t个时间间隔内离开,则其可行停车时长受限于其到达时间u.A。例如,如果目标间隔为[10:30 a.m., 10:40 a.m.],,那么对于一位在上午10:00到达的停车者,其可行停车时长为 30∼40分钟,而对于另一位在上午9:30到达的停车者,其可行停车时长为 60∼70分钟。更一般地,对于一位在时间u.A到达路段块b的停车者u,如果其在时间间隔[(t − 1),t]内离开该路段块,则其停车时长应位于[(t − 1) − u.A,t − u.A]范围内。因此,流出量可通过累加所有在U−T中的停车者得到,即
O(1) t= u∈U−T F(1)(t − u.A) − F(1)((t −1) − u.A), (3)
其中F(1)是停车时长的累积分布函数。由于购买停车时长 u.P PD是限制实际停车时长范围的关键指标,我们将设计一个PPD依赖模型来预测F(1),具体将在第六节中详细阐述。

对于第二类停车者,由于任何停车者u的实际到达时间尚未被观测到,因此在目标间隔:之前的第t个间隔中的相应流出应从之前的流入预测{Iτ|τ= T+1, T+2,…, t}推导得出
O(2) t= t τ=T+1 Iτ Pτ,t, (4)
其中Pτ,t表示在第 τ个时间间隔到达路段块b的任意停车者在第t个时间间隔离开的<概率>。这里我们对在第τ个时间间隔内到达的所有<停车者>采用统一的Pτ,t。相应地,<流出>可以通过将每个时间间隔内的所有<停车者>相加来计算
O(2) t= t τ=T+1 Iτ F(2)(t −(τ −1))−F(2)((t − τ)) , (5)
其中F(2)是停车时长的累积分布函数。由于购买停车时长尚未被观测到,我们将设计一个独立于购买停车时长的模型来预测F(2),具体内容将在第六节中详细阐述。

最后,通过结合公式(3)和(5),我们可以预测未来的 一系列流出序列,即
Ot= O(1) t+ O(2) t, T+ 1 ≤ t ≤ T+ Tp. (6)
此外,由于缺乏实际的流出数据,我们还需要在tnow之前估计流出,如下所示:
Ot= u∈U − t F(1) (t − u.A) − F(1) ((t −1) − u.A) , 1 ≤ t ≤ T. (7)
在tnow之前的流出估计或在tnow之后的流出预测的详细过程如算法1所示。前者的计算复杂度为O(|U−t|),后者的计算复杂度为O(|U−T|+t −T)。此外,在实际应用中,我们可以采用一种时间剪枝技术,考虑停车时长的限制。例如,可以忽略4小时之前到达的停车者,因为我们观察到 99%的停车者的实际停车时长小于4小时。

算法1: 流出估计/预测
输入:流入模型 模型I,基于购买停车时长的持续时间模型 modelF(1),独立于购买停车时长的时长模型 modelF(2),停车者集合 U−T 目标间隔 [(t −1),t]
1 Ot ← 0;
2 如果 t ≤T那么 // 流出估计之前 tnow
3 foreach u ∈U−t do
4 从模型F(1)获取F(1)(t −u.A)
5 从模型F(1) 获取 F(1)((t −1) −u.A);
6 Ot ← Ot+F(1)(t−u.A)−F(1)((t −1)−u.A);
7 end
8 否则// tnow 之后的流出预测
9 遍历 u ∈U−T执行 // 第一类 停车者
10 从模型F(1) 获取 F(1)(t −u.A);
11 从 F(1)获取F(1)((t −1) −u.A)
12 Ot ← Ot+F(1)(t−u.A)−F(1)((t −1)−u.A);
13 end
14 τ ← T+ 1;
15 while τ ≤t do// 第二类 停车者
16 从模型I获取Iτ
17 从 模型F(2) 获取 F(2)(t −(τ −1))
18 从F(2)((t − τ))中获取模型F(2);
19 Ot ←Ot+Iτ(F(2)(t−(τ−1))−F(2)((t−τ)));
20 τ ← τ+ 1
21 end
22 结束
23 返回 Ot;

B. 流入 fl 流出预测的集成 fl流入预测

从第四节‐A可知,流出预测器是基于流入预测器和停车时长模型构建的。事实上,某个时间段的流出也会影响下一个时间段的流入。直观上,如果在第t个时间段内,流出及由此产生的停车位可用性非常低,则由于停车资源稀缺,在第(t+1)个时间段内的流入可能会非常低。因此,我们设计了一种迭代的停车位可用性预测器,使流入/流出预测器能够相互交互,以提高预测性能。当我们预测第(T+ 1) 个时间段内的流入IT+1时,最近合并的流入和PA序列{(It, PAt)|t=1,2,…, T}将被用作基本输入特征,我们将在第五节中详细阐述。具体过程如算法2所示。

V. 流入预测

在本节中,我们将介绍如何预测第(T+1)个时间间隔内的流入量IT+1,这是流出预测和最终停车位可用性预测的基础。此外,如算法2所示,后续流入量{It|t= T+ 2,…,T+ T p}可以进行迭代预测。

算法2:迭代停车位可用性预测
输入:停车者集合U−T,预测长度Tp
1 获取最近的聚合流入量序列 {It|t= 1,2,…, T}来自U的停车事件记录;
2 t ← 1,PAt ← N;
3 当 t ≤T时执行 // 估计 t 时刻的停车位可用性 now
4 使用算法1估计Ot;
5 PAt ←PAt −It+ Ot;
6 t ← t+ 1;
7 结束
8 当 t ≤ T+Tp时 // 预测 t 之后的 PA now
9 根据最近合并的流入和预测 It PA 序列 {(It,PAt)|t= 1,2,…,t −1};
10 使用 算法1 预测 Ot;
11 PAt=PAt −It+ Ot;
12 t ← t+ 1;
13 结束
14 return{PAt|t= T+ 1,T+ 2,…,T+ Tp};

通过对多源数据的特征分析,我们发现城市级道路网络中不同街道区块的流入量之间存在复杂时空相关性。尽管深度学习模型(如CNN和循环神经网络(RNN))在各种时空预测任务中取得了令人瞩目的成果[44],[46],,但这些模型仅限于处理欧几里得空间中的结构化二维或三维网格数据作为输入。相比之下,我们需要捕捉城市级道路网络上的时空相关性,而城市级道路网络是一种典型的图结构。最近,图卷积神经网络(GCN)被用于将传统卷积推广到非欧几里得图数据[48],[49]。我们从两个角度分析区块之间的空间相关性:(i)物理邻接,例如,相邻的两个路段块通常具有相关的流入量;(ii)语义相似性,例如,具有相似功能属性的两个路段块通常具有相关的流入量。因此,我们采用MGCN模型来捕捉这两种类型的空间相关性。同时,我们采用LSTM模型来捕捉时间相关性。

A. 特征分析

影响流入模式的特征可分为三类:时不变特征、时变特征和时空图特征,这些特征将通过不同的方式建模。

1) 时不变特征 :有两种类型的时不变特征可用于表征街道区块之间的空间相关性:物理位置和语义功能。

a) 物理位置 : 每个路段块的物理位置,定义为其中心坐标,直接影响其流入量。通常,彼此靠近的两个路段块往往具有高度相关的流入量。直观上,当停车者发现某个路段块没有空闲车位时,他/她可能会在周边区域从一个路段块巡游寻找其他可用的车位。为了分析相邻路段之间的流入关系,我们选取三个路段作为示例,通过二维散点图可视化它们的相关性。从图3(a)可以看出,高新S环路和高新南九路均与科级南道相邻。我们对这两个路段施加10分钟的时间滞后,以测试它们是否与科级南道存在滞后的时序相关性。从图3(b)和图3(c)中观察到,高新S环路与科级南道具有较强的相关性,而高新南九路则没有。换句话说,某些选定路段的流入量而非所有路段的流入量,有助于预测其相邻路段未来10分钟的流入量。除了物理位置外,我们推断还需要利用其他特征(例如,语义功能)来捕捉空间相关性。

b) 语义功能 : 每个路段块 b的语义功能可以通过一个兴趣点向量b.s来表征,其维度为兴趣点类别的数量,每个元素表示周围区域(例如500米范围内)属于特定类别的兴趣点数量。兴趣点类型众多,因此我们将相似的兴趣点合并为九个典型类别:“办公”、“公寓”、“商场”、“餐饮”、“商业”、“医院”、“交通”、“公园”、“娱乐”。直观来看,具有相似语义功能的两个路段块可能具有高度相关的流入量。如图3(a)所示,创业路距离科级南道较远。然而,图3(d)显示,创业路的流入量在10分钟时间滞后下与科级南道的相关性比相邻的高新南九路更强,这可能是因为它们具有相似的语义功能。我们发现,创业路和科级南道均位于商业区,其周边有一些公司、商场和餐厅。

2) 时变特征 :有两种对流入模式具有显著影响的时变特征。

a) 天气 : 我们定义了一个在第t个时间间隔内的天气特征向量f tW,其包含以下属性:温度、湿度、风速、能见度、基本天气状况(晴、多云、雨、雪)。天气数据来自天气网站,并通过线性插值以10分钟时间分辨率进行平滑处理。下雨、下雪、低温和强风等恶劣天气条件可能会导致流入量低于平常。如图4所示,在雨天的大部分时段,流入数量均低于晴天。此外,有趣的是,天气的动态影响在不同时间和区域存在差异。对于靠近幼儿园的第九工业大道,由于送孩子上幼儿园,早上7点左右流入量达到高峰。而且,在雨天,大约下午1点和下午5点的流入量略高于晴天,这可能是因为此时是午餐或接孩子放学的时间。而位于商业区的科级南道,在雨天晚上7点左右的流入量略高于晴天,这可能是因为此时是下班时间。

b) 节假日事件 : 节假日事件特征 f H t 表示在时间 t 是否为工作日或周末/假日,由于强烈的时间规律性,这对流入模式有显著影响。图5显示,在除晚上7点外的几乎所有时间段,第九工业大道在周末的流入量明显高于工作日。这可能是因为第九工业大道位于住宅区,并且周围有一家超市,人们通常在周末活动更多。相反,科级南道位于商业区,在几乎全天的所有时间段,工作日的流入量都高于周末。

3) 时空图特征 :如第四节‐B部分所述,最近合并的流入和PA序列 {xt (It, PAt)|t= 1,2,…, T}每个路段块的基本输入特征包含时间信息。同时,不同街道区块的停车数据包含丰富的空间相关性,这些信息被附加到基于物理位置或语义功能构建的图中的不同节点上。为方便起见,我们使用V Bs ∪Bm表示所有图节点(即路段)的集合。X t= [ 1 t 2 t |V| t] ∈ R|V|×2 x,x,…,x表示第 t个时间间隔内所有节点的基础图特征。

B. 模型设计

如第五节‐A部分所述,影响流入模式的特征具有不同的特性和数据格式。因此,我们使用三种类型的组件来建模这些特征,如图6所示,包括C1:时空组件,该组件基于时不变特征构建两种类型的图结构,并结合多图卷积网络和长短期记忆网络,利用时空图特征捕捉空间和时间相关性;C2:时间组件,该组件利用长短期记忆网络基于时变天气特征捕捉时间相关性;C3:外部组件,该组件利用全连接神经网络对节假日事件特征进行建模。

1) C1:时空组件 :如图6所示,我们将路段之间的物理邻接和语义相似性关系表示为两个图,其中节点代表路段,边编码路段之间的成对关系。首先,为了捕捉区块级别的时间相关性,我们使用长短期记忆网络来聚合每个节点xi t i ∈V的最近合并的流入和PA序列。将近期序列[x i t−l+1 ,x i t−l+2 ,…,x i t] 输入到长短期记忆网络中,输出一个隐藏状态片段H G ,i [h i t−l+1 ,h i t−l+2 ,…,h i t] 。现在使用 HG [H G ,1, H G,2, . . . , H G, |V| ],采用多图卷积来捕获两种类型节点之间的空间相关性。通常,给定一个图G=(V, A),其中A ∈ R|V|×|V|为邻接矩阵,其元素表示节点之间的连接(即权重),图卷积可用于从平移变异的非欧几里得结构[60]中提取不同感受域内的局部特征。此处我们采用基于谱图理论并使用拉普拉斯矩阵的图卷积,定义为L=I − D−1 2AD−1 2,其中I是单位矩阵,D是度矩阵。接下来,我们将详细阐述两个图的构建以及多图卷积。

a) 物理邻接图 GP=(V,AP) :它基于通过驾驶时间衡量的路段块之间的物理“接近性”构建。邻接矩阵 AP定义为: A P,ij= 1 δij , (8) 其中δi,j表示任意两个节点(路段块)vi ∈ V与vj ∈ V之间在最短路径上的历史平均行程时间的倒数。

b) 语义相似性图 GS=(V,AS) :它基于节点(路段块) vi ∈ V和vj ∈ V之间语义功能的余弦相似度构建。邻接矩阵AS由:定义 A S,ij= si · sj si sj . (9) 其中si和sj分别是对应于vi和vj的两个路段块的语义功能向量。

c) 多图卷积 : 通过构建的两种类型的图,我们利用多图卷积来建模空间相关性,如公式(10)中所定义。 H G l+1= ReL U AA f(A)H G l Wl , (10) 其中 HG l ∈ R |V|×Pl和 HG l+1 ∈ R |V|×Pl+1分别是层 l和 l + 1中 |V| 节点的特征向量,A表示两种类型图的集合,Wl ∈ R Pl×Pl+1表示特征变换矩阵,且 f(A) ∈ R |V|×| V |是图 A[49]上图拉普拉斯矩阵 L的 K阶多项式函数。最后,多图卷积的输出被输入到一个全连接(FC)层,该层输出目标间隔 Y G中的流入量。

2) C2:时间组件 : 我们利用长短期记忆网络( LSTM)基于路段块级别的时变天气特征来捕捉时间相关性,这与C1组件的时间建模类似。近期天气特征序列被输入到LSTM中,其输出一个隐藏状态 HW。然后将 HW输入到一个FC层,该层输出目标间隔 Y W中的流入量。

3) C3:外部组件 :节假日事件特征是一个重要的外部因素,会影响整个网络。我们使用两个全连接层来建模外部因素,输出目标间隔内的流入量Y E。

4) 融合 : 在通过[44],执行融合操作后,我们直接合并时空组件的输出Y G、时间组件Y W和外部组件Y E。最后,目标间隔内所有路段的预测流入量表示为Y。 Y= tanh(YG+ YW+ YE). (11)

VI. 停车时长预测

在本节中,我们将介绍如何根据停车者是否提供 PPD信息,预测两种类型的停车时长累积分布函数F(1)和 F(2)。基于购买停车时长的和独立于购买停车时长的时长模型均基于少量设有停车传感器路段的历史数据进行训练,并将推广应用于设有停车计费器的区域而非传感器区域。

A. 特征分析

特定路段块的停车时长概率分布取决于许多因素。我们确定了以下三个主要特征:

1) 时间因素 : 时间因素包括一天中的小时和一周中的星期,不仅影响流入量,还影响停车时长。因此,我们可以根据一天中的小时来区分时间段,同时区分工作日和周末/假日,并基于此分别构建多个模型。图7展示了两个具有不同语义功能的路段块的两个有趣现象:i)大约在上午 10点到达的停车者的停车时长通常比大约在下午6点到达的停车者短;ii)工作日的停车时长通常较短于周末的停车时长。这可能是因为停车者在非工作时间通常有更多时间进行各种活动,例如在餐厅用餐和购物。

2) 语义功能 :尽管时间因素对所有路段块都有影响,但这些影响与不同路段块的语义功能相关联,呈现出一些独特特征。图7(a)显示,在约上午10点到达和约下午6点到达第九工业大道的停车者之间,停车时长存在相对较大的差异;而如图7(b)所示,科级南道的这一差异则显著减小。这表明时间因素对住宅区的停车时长影响大于商业区。此外,从图7我们还观察到,大约上午10点时,科级南道的停车时长普遍长于第九工业大道,而在大约下午6点时情况正好相反。以上所有现象表明,语义功能对于构建停车时长预测模型具有重要价值。

3) 购买停车时长 (PPD) :正如我们之前所述,分别构建了基于购买停车时长的和独立于购买停车时长的时长模型。对于一个已经发生的停车事件,它包含PPD信息,该信息代表了停车者对停车时长的估计。通常情况下,停车者的实际停车时长不会超过或浪费太多所购买的停车时长。例如,如果一个停车者在某一路段块上以每小时费率购买了2小时的停车时长,那么其实际停车时长在1小时到2小时之间的概率非常高。图8展示了不同PPD情况下的停车时长累积分布函数。有趣的是,随着PPD值的增加,实际停车时长 tends to be closer to the PPD。例如,当PPD为 1小时时,实际停车时长大于半小时的概率为18.1%;而当 PPD为2小时时,实际停车时长大于1.5小时的概率为27.4 %。

B. 模型设计

由于停车时长的概率分布随时间变化,我们分别针对工作日和周末/节假日的每个1小时时间窗口训练一个模型。同时,我们观察到99%的停车事件的停车时长小于四小时,因此停车时长的概率分布最多可限制在四小时内。此外,我们区分了基于购买停车时长的和独立于购买停车时长的持续时间模型,二者均采用相同的前馈深度神经网络(DNN)结构,具体如下:

1) PPD依赖模型 :PPD值可分为四类:{1小时,2小时, 3小时,和4小时},这有助于限制停车时长概率分布的范围。相较于所有类别的组合,单独拟合每个类别更容易,因此我们分别为每个PPD类别训练一个模型,而不是为所有 PPD类别训练一个统一的模型。同时,我们将每小时划分为六个10分钟间隔以聚合训练样本。例如,给定一个1小时的时间窗口和1小时的PPD,我们通过两个步骤构建训练样本:i)提取训练集中每个路段块b的语义功能向量作为训练样本;ii)选择在该时间窗口内到达b且PPD为1小时的所有停车者的记录,并统计这些选定停车记录落入6个不同间隔的概率,作为真实标签。

2) PPD独立模型 :对于未来到达的停车者,我们尚未观测到其PPD信息。在此情况下,停车时长可能落入0到 4小时之间的二十四个10分钟间隔内。因此,在给定1小时时间窗口和路段块b的情况下,我们将选择所有在该时间窗口内到达b的停车者的记录,并对所选停车记录落入 24个不同间隔的概率进行统计,作为真实标签。

3) 前馈深度神经网络 :我们将所有训练路段块的语义功能向量输入到一个包含三个全连接层和一个softmax层的前馈深度神经网络模型中,该模型输出停车时长的预测概率分布。

VII. 实验

A. 数据集

我们使用了2018年9月1日至 20191期间,在中国深圳南山区76个街道区块内由1735个传感器收集的停车数据。共有624,464条停车事件记录,每条记录包括到达时间、离开时间、路段块ID和车位ID。同时,我们将每个停车事件的实际停车时长计算为(离开时间-到达时间),并将 PPD定义为能够覆盖实际停车时长的最小小时数。我们随机选取79%的路段作为设有停车传感器的区域Bs,其余路段则视为设有停车计费器的区域Bm,如图9所示。我们使用2018年9月1日至2018年12月10日期间所有路段的流入数据来训练流入模型,并使用2018年12月11日至2019年1月 1日的流入数据进行测试。仅使用2018年9月1日至2018年 12月10日期间Bs中路段的实际停车时长数据来训练持续时间模型。而2018年12月11日至2019年1月1日期间Bm中路段的实际停车时长和停车位可用性数据仅用于测试持续时间模型以及停车位可用性预测。此外,我们使用以下多源城市上下文数据:从高德地图API2收集了围绕 76个路段块的127,062个兴趣点(POI);从百度地图 API3收集了道路网络中任意两个路段之间的历史平均行程时间;从Dark Sky API4收集了天气数据。

示意图2

B. 实验设置

1) 基线方法 :我们将第五节中提出的模型(MGCN+ LSTM)与以下十种基线方法进行比较,用于流入预测:(i)历史平均法(HA);(ii)自回归积分滑动平均模型 (ARIMA) [61];(iii)支持向量回归(SVR)[62];(iv)最小绝对收缩与选择算子(LASSO);(v)BP神经网络 (BPNN);(vi)堆叠自编码器(SAE)[63];(vii)门控循环单元神经网络(GRU)[64];(viii)长短期记忆网络(LSTM)[65];(ix)Du-Parking[2],,该方法使用2 个LSTM模块和一个DNN模块,分别捕捉时间邻近性和周期性,以及当前一般因素;(x)GCN+ LSTM,该方法结合图卷积网络(仅使用物理邻接图)和长短期记忆网络,以同时从多源数据中捕捉时间和空间相关性。一种类似且先进的模型已被用于实时停车位占用率预测[5],,但它未能考虑图节点之间的语义关联。

另一方面,可以通过使用一种常用但较为简单的停车时长估计方法来获取历史停车位可用性:一旦停车者占用一个停车位,在其购买停车时长到期或该车位被其他停车者再次占用之前,不会被视为离开。因此,我们只需将输入模型的历史聚合的停车可用性序列替换为历史流入序列,即可直接使用上述基线方法进行停车位可用性预测。此外,我们可以采用第六节中提出的停车时长预测(PDP)模型,更准确地估计历史停车位可用性。由此可以获得上述基线方法的升级版本,我们称之为:HA+ PDP,自回归积分滑动平均模型 + PDP,支持向量回归 + PDP, LASSO+ PDP,BP神经网络 + PDP,堆叠自编码器 + PDP, 门控循环单元 + PDP,长短期记忆网络 + PDP, Du‐Parking+PDP 和 图卷积网络 + LSTM + PDP。此外,我们的 多图卷积网络 +LSTM 模型是一种通用的时空预测模型,不仅可以用于构建流入预测器,还可以直接用于构建停车位可用性预测器。因此,我们还将 MePark 与两个降级版本进行了比较: MGCN + LSTM 和 MGCN + LSTM + PDP,它们分别使用所提出的流入预测模型直接预测停车位可用性,以及将流入预测模型与PDP结合来预测停车位可用性。MePark 与其两个降级版本的主要区别在于,MePark 采用了迭代式停车可用性预测机制,有效整合了聚合流入预测与个体停车时长预测,并充分挖掘了停车交易数据。

2) 评估指标 :均方根误差(RMSE)和 平均绝对误差(MAE)被用作流入预测和停车位可用性预测的评估指标。此外,我们使用连续排序概率评分(CRPS)[66]作为停车时长概率预测的评估指标。由于数据是离散的,我们使用真实值或预测停车时长的经验累积分布函数来计算该指标:
CRPS= 1 |Bm| |iB=m1| ⎛⎝ 1 Ri Ri r=1 h 0 (Fi(x)−H(x − ξi,r)) 2dx ⎞⎠ (12)
其中Ri是路段块i ∈ Bm在测试集中的停车事件记录数量, h是停车时长的上限,Fi(x)是路段块i ∈ Bm的经验累积分布函数, ξi,r是每个停车事件的真实观测值,而H(·)是 Heaviside阶跃函数: H(x)= 0, x< 0 1, x ≥ 0 (13)

3) 实现 : 所有实验均在Linux集群(CPU:英特尔至强CPU E5‐2620 v4 @ 2.10GHz,GPU:NVIDIA Tesla P100)上进行编译和测试。所有基于神经网络的模型均使用PyTorch框架实现,并采用Adam优化器以最小化均方根误差。对于我们的MGCN + LSTM模型中的图卷积部分,每个隐藏层包含64个隐藏单元,并应用权重衰减为 5e‐4的L2正则化。回顾公式(10)中的f(A)是图A上的图拉普拉斯矩阵L的K阶多项式函数。在实验中,我们测试了从 1到5的阶数K,发现当K= 4时,模型性能最佳。对于 LSTM部分,网络输入4个历史观测值,即使用40分钟历史观测值来预测未来10分钟流入量。在训练过程中,批量大小设置为64,学习率设置为1e‐3,并在验证数据集上使用早停法。模型的训练轮数为200。MGCN +LSTM的训练占用1041MB内存和655MB GPU显存。在HA中,我们使用最近4个时间间隔的平均值来预测下一个值。对于LASSO模型,最近4个时间间隔的时空特征被展平将其转换为一维向量作为输入。对于SVR模型,核函数为线性函数,输入与LASSO模型相同。在BPNN中,使用两层网络,激活函数为ReLU。对于SAE模型,有三个隐藏层用于编码最近4个时间间隔的特征,输出层的激活函数为线性函数。对于GRU和LSTM模型,使用两层网络,第一层为512维度,第二层为128维度,学习率设置为1e‐2。对于Du‐Parking模型,我们采用与[2],相同的参数设置,例如邻近序列和周期序列的长度。对于GCN + LSTM,我们采用与MGCN + LSTM相同的参数设置,唯一区别在于仅构建物理邻接图。

C. 流入预测评估

1) 不同组件和数据源的评估 :为了评估不同组件和数据源的重要性,我们分别从用于流入预测的MGCN + LSTM模型中移除组件C2、C3或两者。相应地,我们得到三个模型,分别命名为“MGCN + LSTM w/o C2”、“MGCN + LSTM w/o C3”和“MGCN + LSTM w/o (C2, C3)”,以进行消融研究。组件C1保持不变,因为它使用了基本的时空图特征。如表I所示,从模型中移除任一组件都会导致RMSE和MAE的增加。这表明整合天气和节假日事件特征的重要性。此外,我们的MGCN + LSTM优于GCN + LSTM,说明了使用语义功能特征的重要性。

2) 模型比较 :表II比较了不同模型在流入预测上的结果。首先,我们观察到深度学习模型(包括BP神经网络、堆叠自编码器、门控循环单元、长短期记忆网络、Du‐Parking、图卷积网络+ LSTM以及本文提出的多图卷积网络+LSTM),由于能够捕捉非线性的时空相关性,整体表现优于其他传统模型。同样值得注意的是在[5]中出现的类似现象:LASSO的均方根误差小于长短期记忆网络,表明一些复杂的深度学习模型在处理高维度但小样本的数据集[5]时容易失效。其次,图卷积网络+LSTM的表现优于LASSO、BP神经网络、堆叠自编码器、门控循环单元、长短期记忆网络和Du‐Parking,说明基于物理位置捕捉空间相关性的重要性。最后,我们的多图卷积网络+ LSTM模型在均方根误差和平**均绝对误差 **方面均取得了最佳性能。特别是性能我们的模型相较于图卷积网络+长短期记忆网络的改进,表明了显式建模路段块之间语义关联的优势。

D. 停车时长预测评估

表 III 显示,我们的模型在各种情况下的 CRPS 结果非常接近真实值,并且明显优于朴素方法。我们还观察到,基于购买停车时长的结果明显优于独立于购买停车时长的结果,这表明了 PPD 信息的重要性。例如,我们展示了我们的模型在各种情况下对高新S环路在工作日的停车时长累积分布函数的预测结果,其与真实值高度一致,如图 10所示。

E. 停车可用性预测评估

表 IV 比较了不同模型在接下来三个 10分钟间隔 内的停车位可用性预测结果。我们观察到三个重要现象:(i)我们的 MGCN + LSTM 优于十种基线方法:HA、自回归积分滑动平均模型、支持向量回归、 LASSO、BP神经网络、堆叠自编码器、门控循环单元、长短期记忆网络、Du‐Parking 和 GCN + LSTM,同时我们的 MGCN + LSTM + PDP 优于十个改进的基线方法:HA + PDP、自回归积分滑动平均模型 +PDP、支持向量回归 +PDP、LASSO + PDP、BP神经网络 + PDP、堆叠自编码器 +PDP、门控循环单元 + PDP、长短期记忆网络 + PDP、Du‐Parking+ PDP 以及图卷积网络 +长短期记忆网络 + PDP。这表明我们的模型在捕捉复杂时空相关性方面的优势,与之前流入实验的结果一致。(ii)所有模型在结合我们的PDP模型后性能均有所提升,说明准确估计停车时长的重要性。(iii)我们的MePark在前两个时间段的表现优于多图卷积网络 +长短期记忆网络 + PDP。特别是在第一个时间段,MePark相比多图卷积网络 +长短期记忆网络 + PDP,均方根误差和平均绝对误差均降低了约30%。然而我们发现MePark存在所谓的“误差累积效应”这一局限性,即其性能随

您可能感兴趣的与本文相关的镜像

EmotiVoice

EmotiVoice

AI应用

EmotiVoice是由网易有道AI算法团队开源的一块国产TTS语音合成引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值