航班数据的质量控制与模型评估
在处理航班数据时,我们常常需要对数据进行深入的探索和分析,以确保数据的质量,并建立有效的模型来做出决策。本文将详细介绍如何对航班数据进行质量控制、去除异常值、应用概率决策阈值以及评估模型的准确性。
1. 数据探索与异常值发现
我们通过绘制小提琴图来探索航班数据。通过添加 ax.set_xlim(-50, 50) 创建了放大的小提琴图,从图中可以看出准时起飞的航班特征。然而,小提琴图极长且细的尾部是一个危险信号,这表明数据集可能在建模时带来挑战。
为了进一步探究,我们在 BigQuery 控制台进行查询。首先执行以下查询:
#standardsql
SELECT
AVG(ARR_DELAY) AS arrival_delay
FROM
flights.tzcorr
GROUP BY
DEP_DELAY
ORDER BY
DEP_DELAY
这个查询返回了每个出发延误值对应的平均到达延误。结果返回了超过 1000 行,这引发了我们的疑问:出发延误真的有超过 1000 个唯一值吗?
为了更深入了解,我们在初始查询中添加更多元素:
#standardsql
SELECT
DEP_DELAY,
AVG(ARR_DELAY) AS arrival_delay,
COUNT(ARR_DELAY) AS numflights
FROM
`flights.tzcorr`
GROUP BY
DEP_
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



