“本站历史下车比例”和“换乘比例” 模型

数据提取与关联：
- 选取一个长时间段（如过去3个月）的历史数据。
- 对于目标车站S，找出所有到达该站的列车记录。
- 通过融合的行程链数据，关联出乘坐每一趟列车的乘客的最终出站站点。
计算基础比例：
- 对于一趟具体的列车（如周一早8:00从X线到达S站的车次），已知其车上总人数P_total（可通过AFC数据中，以该车次为乘坐段的所有乘客数加总得到）。
- 其中，在S站下车的乘客数 P_alight（即出站站为S，或下一段行程的进站站为S换乘站的乘客）。
- 则该车次在该站的下车比例 R_alight = P_alight / P_total。
数据切片与维度建模：
- 单纯一个车次的比例没用，我们需要的是统计规律。因此，将所有历史车次的数据按多个维度进行分类、聚合、求平均。
- 核心维度包括：
  - 时间段：最重要的维度。按小时、或按运营时段（早高峰、晚高峰、平峰、夜间）划分。
  - 来车方向/线路：从A线来的和从B线来的，下车比例截然不同。
  - 星期类型：工作日、周六、周日及节假日。
  - 天气等外部因素（可选）：雨天可能改变出行模式。
  - 列车拥挤度区间（可选）：非常拥挤的车和宽松的车，下车比例可能也有细微差异。

建立模型查找表/函数：

查找表示例：

车站	时间段 (7:30-8:30)	来车线路	星期类型	历史平均下车比例	样本数（置信度）
S站	早高峰	A线 (开往市中心)	工作日	72%	1500车次
S站	早高峰	B线 (环线)	工作日	35%	1200车次
S站	平峰	A线	工作日	15%	2000车次

当实时估算时，系统根据 “当前时间”、“列车所属线路”、“星期几” 作为索引，从这张表中取出对应的 “历史平均下车比例” 用于计算。

这个模型要回答：“在特定条件下，从某条线路在本站下车的乘客中，有多少比例会换乘到X线，多少比例会出站？”

步骤：

数据提取：
- 同样从融合的行程链数据中，筛选出所有在S站有下车行为的乘客行程记录。
- 明确每个乘客的下车行为是：换乘（及换乘到哪条线） 还是出站。
计算基础比例：
- 对于一组条件相同的下车乘客（例如，都是周一早高峰从A线在S站下车），统计其总人数 P_alight_group。
- 统计其中选择换乘到B线的人数 P_transfer_to_B，换乘到C线的人数 **P_transfer_to_C`，……，以及出站人数 P_exit。
- 则换乘B线的比例 R_to_B = P_transfer_to_B / P_alight_group。
数据切片与维度建模：
- 同样进行多维度聚合，维度和下车比例模型类似，但来车线路这个维度更为关键。
- 核心维度：
  - 时间段
  - 下车前乘坐的线路（来源线路）
  - 星期类型

建立模型查找表/函数：

这是一个条件概率分布表。示例如下：

车站	时间段	来源线路	星期类型	换乘A线比例	换乘B线比例	出站比例	样本数
S站	早高峰	A线 (郊区进城主线)	工作日	-	65%	20%	15%	10万乘客
S站	早高峰	B线 (环线)	工作日	40%	-	30%	30%	8万乘客
S站	晚高峰	A线	工作日	5%	10%	70%	15%	9万乘客

注：比例行总和为100%。
实时估算时，系统根据 “当前时间”、“乘客所下列车的线路”、“星期几” 作为索引，从表中取出一整套换乘/出站的比例分布，用于对估算的下车总人数进行分配。

定期更新：乘客出行模式会缓慢变化（如新小区入住、新线路开通）。模型需要定期（如每月/每季度）用最新数据重新训练，以确保其时效性。
实时校验：当AFC实际数据滞后到达后，系统会将估算值与实际值进行对比，计算误差。持续监控误差可以评估模型健康度。
异常处理机制：模型需内置置信区间。当实时情况（如突发大客流）导致估算严重偏离时，系统能触发警报，并可能切换到备用模型（如使用更泛化的时段比例）或依赖人工干预。
机器学习进阶：更先进的系统会使用时间序列模型（如LSTM） 或集成学习模型，不仅考虑静态历史平均，还考虑趋势、周期性和临近时段的数据，进行动态预测，从而进一步提升精度。