本文旨在探索纽约城市市民的打车出行习惯,通过对145万余条数据的定量分析,针对提出的问题相应地得出了些许结论。并在文末分析了日后可以进一步拓展的探索方向。
数据来自于kaggle,选用train.csv中的数据记录进行相关数据分析,使用Python作为分析工具。
数据来源:Kaggle|New York City Taxi Trip Duration
也可参考纽约市出租车和轿车委员会发布的历史数据集: NYC|(TLC Trip Record Data
过程设计:
- 提出问题
- 理解数据
- 数据清理
- 数据分析
- 得出结论
一、提出问题
根据已有数据分析:
1、何时为打车需求高发期?
2、居民夜生活活跃情况?
3、城市一天的什么时候最为拥堵?
4、什么时间容易接到长途单?
二、了解数据
表单说明:
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上车的日期和时间
dropoff_datetime - 停表的日期和时间
passenger_count - 车辆中的乘客数量(驾驶员输入值)
p