航班延误预测:从贝叶斯模型到逻辑回归的探索
1. 基于距离和出发延误的贝叶斯模型
在航班延误预测中,我们可以构建一个基于距离和出发延误两个变量的贝叶斯模型,以此来判断是否取消会议。随着飞行距离的增加,出发延误阈值也会相应提高,以下是一个示例表格:
| 距离范围(英里) | 出发延误阈值(分钟) |
| — | — |
| 0 - 368 | 15 |
| 368 - 575 | 17 |
| 575 - 838 | 18 |
| 838 - 1218 | 18 |
| 1218及以上 | 19 |
生产服务可以从云存储的Pig输出桶中读取该表格,并进行相应的阈值判断。例如,对于一个飞行距离为1000英里、出发延误15分钟的航班,它属于838 - 1218英里的区间。对于这个区间的航班,只有当出发延误达到18分钟或以上时,才需要取消会议,所以这个15分钟的出发延误是可以在飞行途中弥补的。
2. 评估贝叶斯模型
为了评估这个新的双变量模型的性能,我们可以修改之前的评估查询,添加距离标准并为该距离提供合适的阈值:
#standardsql
SELECT
SUM(IF(DEP_DELAY = 15
AND arr_delay < 15,
1,
0)) AS wrong_cancel,
SUM(IF(DEP_DELAY = 15
AND arr_delay >= 15,
1,
0)) AS correct_cancel
FROM
航班延误预测:贝叶斯到逻辑回归
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



