目录
“本站历史下车比例”和“换乘比例” 模型的获取和构建,是整个系统能否准确估算的基石。这些比例不是固定不变的常数,而是通过数据挖掘和机器学习技术,从海量历史数据中提炼出的、带有条件属性的概率分布模型。
以下是详细的获取与构建过程:
一、基础数据源
所有模型都源于两大核心数据系统:
-
AFC数据(自动售检票系统数据):
-
包含每一次乘车的完整记录:进站时间、进站站点、出站时间、出站站点、票种。
-
通过匹配一次旅行的进站和出站记录,可以得到完整的OD(起讫点)信息。
-
-
列车运行数据:
-
列车到发时间、车次编号、运行交路。
-
关键操作:数据融合与乘客行程链还原
将AFC数据与列车运行时刻表进行匹配和融合,可以还原出乘客更精细的行程链。例如,不仅能知道“乘客从甲站进,丙站出”,还能推断出:
-
他大概率乘坐了
哪一班列车(根据进站时间推算)。 -
在乙换乘站,他
从哪条线下车,又换乘了哪条线(根据OD和网络拓扑、合理旅行时间推算)。 -
进而可以统计出,对于乙站来说,从特定线路来的特定车次,其下车乘客的比例和换乘选择。
二、“本站历史下车比例模型”的构建
这个模型要回答:“在特定条件下,从某条线路到达本站的列车,其车上有多少比例的乘客会在此站下车?”
步骤:
-
数据提取与关联:
-
选取一个长时间段(如过去3个月)的历史数据。
-
对于目标车站S,找出所有到达该站的列车记录。
-
通过融合的行程链数据,关联出乘坐每一趟列车的乘客的最终出站站点。
-
-
计算基础比例:
-
对于一趟具体的列车(如周一早8:00从X线到达S站的车次),已知其车上总人数P_total(可通过AFC数据中,以该车次为乘坐段的所有乘客数加总得到)。
-
其中,在S站下车的乘客数 P_alight(即出站站为S,或下一段行程的进站站为S换乘站的乘客)。
-
则该车次在该站的下车比例 R_alight = P_alight / P_total。
-
-
数据切片与维度建模:
-
单纯一个车次的比例没用,我们需要的是统计规律。因此,将所有历史车次的数据按多个维度进行分类、聚合、求平均。
-
核心维度包括:
-
时间段:最重要的维度。按小时、或按运营时段(早高峰、晚高峰、平峰、夜间)划分。
-
来车方向/线路:从A线来的和从B线来的,下车比例截然不同。
-
星期类型:工作日、周六、周日及节假日。
-
天气等外部因素(可选):雨天可能改变出行模式。
-
列车拥挤度区间(可选):非常拥挤的车和宽松的车,下车比例可能也有细微差异。
-
-
-
建立模型查找表/函数:
-
最终模型通常表现为一个多维查找表或一个回归/分类模型。
-
查找表示例:
车站 时间段 (7:30-8:30) 来车线路 星期类型 历史平均下车比例 样本数(置信度) S站 早高峰 A线 (开往市中心) 工作日 72% 1500车次 S站 早高峰 B线 (环线) 工作日 35% 1200车次 S站 平峰 A线 工作日 15% 2000车次 -
当实时估算时,系统根据 “当前时间”、“列车所属线路”、“星期几” 作为索引,从这张表中取出对应的 “历史平均下车比例” 用于计算。
-
三、“本站历史换乘比例模型”的构建
这个模型要回答:“在特定条件下,从某条线路在本站下车的乘客中,有多少比例会换乘到X线,多少比例会出站?”
步骤:
-
数据提取:
-
同样从融合的行程链数据中,筛选出所有在S站有下车行为的乘客行程记录。
-
明确每个乘客的下车行为是:换乘(及换乘到哪条线) 还是 出站。
-
-
计算基础比例:
-
对于一组条件相同的下车乘客(例如,都是周一早高峰从A线在S站下车),统计其总人数 P_alight_group。
-
统计其中选择换乘到B线的人数 P_transfer_to_B,换乘到C线的人数 **P_transfer_to_C`,……,以及出站人数 P_exit。
-
则换乘B线的比例 R_to_B = P_transfer_to_B / P_alight_group。
-
-
数据切片与维度建模:
-
同样进行多维度聚合,维度和下车比例模型类似,但来车线路这个维度更为关键。
-
核心维度:
-
时间段
-
下车前乘坐的线路(来源线路)
-
星期类型
-
-
-
建立模型查找表/函数:
-
这是一个条件概率分布表。示例如下:
车站 时间段 来源线路 星期类型 换乘A线比例 换乘B线比例 出站比例 样本数 S站 早高峰 A线 (郊区进城主线) 工作日 - 65% 20% 15% 10万乘客 S站 早高峰 B线 (环线) 工作日 40% - 30% 30% 8万乘客 S站 晚高峰 A线 工作日 5% 10% 70% 15% 9万乘客 -
注:比例行总和为100%。
-
实时估算时,系统根据 “当前时间”、“乘客所下列车的线路”、“星期几” 作为索引,从表中取出一整套换乘/出站的比例分布,用于对估算的下车总人数进行分配。
-
四、模型的更新、验证与优化
-
定期更新:乘客出行模式会缓慢变化(如新小区入住、新线路开通)。模型需要定期(如每月/每季度)用最新数据重新训练,以确保其时效性。
-
实时校验:当AFC实际数据滞后到达后,系统会将估算值与实际值进行对比,计算误差。持续监控误差可以评估模型健康度。
-
异常处理机制:模型需内置置信区间。当实时情况(如突发大客流)导致估算严重偏离时,系统能触发警报,并可能切换到备用模型(如使用更泛化的时段比例)或依赖人工干预。
-
机器学习进阶:更先进的系统会使用时间序列模型(如LSTM) 或集成学习模型,不仅考虑静态历史平均,还考虑趋势、周期性和临近时段的数据,进行动态预测,从而进一步提升精度。
总结
获取“下车比例”和“换乘比例”的本质是:利用历史AFC和行车数据,通过“数据融合 -> 行程链还原 -> 多维度条件聚合”的数据挖掘流程,构建出一个刻画乘客群体出行选择概率的、高维度的、条件化的统计模型。
这个模型是系统的“大脑”,而实时列车满载率是触发大脑进行快速计算的“信号”。两者的结合,实现了从滞后的事后统计到实时前瞻预测的跨越。
528

被折叠的 条评论
为什么被折叠?



