17、航班数据的质量控制与模型评估

航班数据的质量控制与模型评估

在处理航班数据时,我们常常需要对数据进行深入的探索和分析,以确保数据的质量,并建立有效的模型来做出决策。本文将详细介绍如何对航班数据进行质量控制、去除异常值、应用概率决策阈值以及评估模型的准确性。

1. 数据探索与异常值发现

我们通过绘制小提琴图来探索航班数据。通过添加 ax.set_xlim(-50, 50) 创建了放大的小提琴图,从图中可以看出准时起飞的航班特征。然而,小提琴图极长且细的尾部是一个危险信号,这表明数据集可能在建模时带来挑战。

为了进一步探究,我们在 BigQuery 控制台进行查询。首先执行以下查询:

#standardsql
SELECT
  AVG(ARR_DELAY) AS arrival_delay
FROM
  flights.tzcorr
GROUP BY
  DEP_DELAY
ORDER BY
  DEP_DELAY

这个查询返回了每个出发延误值对应的平均到达延误。结果返回了超过 1000 行,这引发了我们的疑问:出发延误真的有超过 1000 个唯一值吗?

为了更深入了解,我们在初始查询中添加更多元素:

#standardsql
SELECT
  DEP_DELAY,
  AVG(ARR_DELAY) AS arrival_delay,
  COUNT(ARR_DELAY) AS numflights
FROM
  `flights.tzcorr`
GROUP BY
  DEP_
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值