20、航班数据处理与贝叶斯分类:从量化到决策

航班数据处理与贝叶斯分类:从量化到决策

在数据分析和机器学习领域,对航班数据进行处理和分析是一个重要的应用场景。本文将详细介绍如何对航班数据进行量化处理,并使用贝叶斯分类方法来做出决策。

1. 数据采样与分析

在处理大规模航班数据时,由于内存限制,我们通常需要对数据进行采样。之前绘制十六进制图时,我们将数据采样到了 1/1000,这是因为我们将 Pandas 数据框传递给了 seaborn。Pandas 数据框必须完全加载到内存中,而 Spark 数据框则不需要。但截至目前,还无法直接绘制 Spark 数据框,仍需将其转换为 Pandas 数据框,因此在处理完整数据集时仍需进行采样。

已知 1/30 的数据约有 200,000 行,预计完整数据集约有 600 万行。我们将数据采样到约 100,000 条记录,即数据集的 0.02:

pdf = df.sample(False, 0.02, 20).toPandas()
g = sns.jointplot(pdf['distance'], pdf['dep_delay'], kind="hex",
                  size=10, joint_kws={'gridsize':20})

得到的十六进制图与之前的结果差异不大,结论仍然是需要创建自适应宽度的量化区间。

2. 直方图均衡化用于量化

为了自适应地选择出发延迟和距离的量化阈值(在尾部设置较宽的阈值,在航班密集区域设置较窄的阈值),我们采用了图像处理中的直方图均衡化技术。

低对比

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值