基于数据的航班决策分析与数据处理
1. 决策准则与目标
我们的决策准则是,如果航班到达延误 15 分钟的累积分布函数(CDF)小于 70%,则取消会议。简单来说,我们希望有 70%的把握确保飞机晚点不超过 15 分钟。后续的工作是构建数据管道,利用统计和机器学习模型计算航班到达延误的 CDF。从计算得到的到达延误 CDF 中,我们可以查找 15 分钟到达延误的 CDF 值,并检查其是否小于 70%。
2. 数据与工具选择
要预测特定航班延误的可能性,我们需要考虑使用什么数据和工具。对于数据,我们将使用美国运输统计局发布的历史航班到达数据,对其进行分析并用于决策。
在工具选择方面,有多种选择,如 Hadoop、BigQuery 等,也需要考虑是在本地笔记本电脑上进行分析,还是使用公共云。由于 2015 年就有超过 580 万次航班数据,且可以通过使用前几年的数据使数据集更强大,本地笔记本电脑无法胜任,所以我们选择在公共云进行数据分析。具体来说,我们将使用 Google Cloud Platform(GCP),原因如下:
- 部分工具(如 MySQL、Hadoop、Spark 等)虽在其他云平台也可用,但像 BigQuery、Cloud Dataflow 等工具是 GCP 特有的。
- 使用 GCP 可以避免处理虚拟机和机器配置,专注于数据分析。
- 作者在 Google 工作,对该平台最熟悉。
学习资料以两种形式呈现:
- 正在阅读的内容。
- 书中引用的代码可在 GitHub 上获取,链接为:https://github.com/GoogleCloudPlatform/data-scie
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



