公交晚点问题的数据探索与建模分析
1. 问题提出与范围界定
在日常生活中,经常乘坐公交的人可能会疑惑:为什么公交车总是晚点?我们关注的并非如交通堵塞或维护延误这类实际导致晚点的原因,而是想研究公交车实际到站时间与时刻表之间的规律,以此深入了解乘客等车的体验。
由于世界各地甚至同一城市内的公交线路都存在差异,我们将研究范围缩小至西雅图的一个公交站点,即第三大道和派克街的站点。我们获取了华盛顿州交通中心提供的 2016 年 3 月 26 日至 5 月 27 日期间,西雅图快速公交线路 C、D 和 E 在该站点的所有实际和预定到站时间数据。
考虑到我们聚焦于特定站点在两个月内的公交数据,且能获取该时间段内的所有管理数据,此时总体、访问框架和样本是一致的。不过,我们推测该分析结果可能对西雅图内外的其他地点以及一年中的其他时间段也有参考价值。目前,我们仍专注于当前的研究范围。接下来,让我们深入了解这些数据的结构。
2. 数据整理
在开始分析之前,我们需要检查数据质量,尽可能简化数据结构,并推导可能有助于分析的新度量。以下是具体操作步骤:
2.1 数据加载
首先,将数据加载到 Python 中:
bus.head(3)
OPD_DATE VEHICLE_ID RTE DIR ... STOP_ID STOP_NAME SCH_STOP_TM ACT_STOP_TM
0 2016 - 03 - 26 6201 673 S
超级会员免费看
订阅专栏 解锁全文
384

被折叠的 条评论
为什么被折叠?



