航班数据处理与贝叶斯分类:从量化到决策
在数据分析和机器学习领域,对航班数据进行处理和分析是一个重要的应用场景。本文将详细介绍如何对航班数据进行量化处理,并使用贝叶斯分类方法来做出决策。
1. 数据采样与分析
在处理大规模航班数据时,由于内存限制,我们通常需要对数据进行采样。之前绘制十六进制图时,我们将数据采样到了 1/1000,这是因为我们将 Pandas 数据框传递给了 seaborn。Pandas 数据框必须完全加载到内存中,而 Spark 数据框则不需要。但截至目前,还无法直接绘制 Spark 数据框,仍需将其转换为 Pandas 数据框,因此在处理完整数据集时仍需进行采样。
已知 1/30 的数据约有 200,000 行,预计完整数据集约有 600 万行。我们将数据采样到约 100,000 条记录,即数据集的 0.02:
pdf = df.sample(False, 0.02, 20).toPandas()
g = sns.jointplot(pdf['distance'], pdf['dep_delay'], kind="hex",
size=10, joint_kws={'gridsize':20})
得到的十六进制图与之前的结果差异不大,结论仍然是需要创建自适应宽度的量化区间。
2. 直方图均衡化用于量化
为了自适应地选择出发延迟和距离的量化阈值(在尾部设置较宽的阈值,在航班密集区域设置较窄的阈值),我们采用了图像处理中的直方图均衡化技术。
低对比
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



