公交行程时长偏差的有趣情境分析
1. 引言
改善城市公交服务质量是重要目标,其中调整公交时刻表与运营条件相适配是关键环节。为实现这一目标,需找出与公交行程时长偏差相关的因素或因素组合,可借助描述性数据挖掘技术达成。本文以某城市公交线路为例展开研究。
2. 分布规则发现基础
2.1 分布规则定义
给定数据集,分布规则发现的任务是找出所有满足条件的分布规则 (Ant \to A = D_{A|Ant}),其中 (Ant) 的支持度高于确定的最小值 (\sigma_{min}),且 (D_{A|Ant}) 与默认分布 (D_{A|\varnothing}) 在统计学上有显著差异。默认分布可通过全量数据集的 (A) 值获得,或从保留数据集得到。
2.2 分布比较方法
采用 Kolmogorov - Smirnov(KS)检验这一统计拟合优度检验方法来比较分布。KS 统计量的值通过最大化 (|F_s(x) - F(x)|) 计算,其中 (F(x)) 是 (A) 整个定义域的经验累积分布函数,(F_s(x)) 是 (Ant) 所涵盖案例的累积分布函数。
3. 行程时长偏差研究
3.1 研究目标与定义
研究聚焦于“行程时长偏差”(Deviation),即公交实际行程时间与公布的时刻表行程时间之差(以秒为单位)。其先验分布对应总体情况,将寻找偏差相关因素的实际问题转化为数据挖掘问题,即发现与变量 Deviation 分布有显著变化相关的情境。
3.2 情境定义
情境是在给定时刻可观察到且影响运营的条件组合,在逻辑上
超级会员免费看
订阅专栏 解锁全文
516

被折叠的 条评论
为什么被折叠?



