大数据处理:航班延迟数据计算与优化实践
1. BigQuery 查询优化
在使用 BigQuery 进行查询时,如果遇到 ORDER BY 操作导致资源超出的问题,可采用以下解决方案:
- 去除 ORDER BY :很多时候我们只需要前 10 条结果,添加 LIMIT 10 后,整个结果集就无需排序。
- 分组排序 :使用 GROUP BY 对数据进行分组,并在每个组内进行排序,这样可以增加并行性。
- 分区排序 :对表进行分区,并在分区内进行排序,同样能增加并行性。
总之,要为 BigQuery 提供并行执行查询的方式。
2. Cloud Dataflow 处理无序数据的时间窗口
Cloud Dataflow 处理无序数据的时间窗口时,并非像我们最初想象的那样,在时间戳跨越时立即触发操作。它利用事件时间、系统时间以及允许延迟等属性,将按键分组操作限制在一个时间窗口内,因此输入数据无需排序。这体现了集成端到端数据科学平台的优势。
3. 现存问题及解决方案
目前存在两个问题:
- 程序运行时间长 :当前使用 DirectRunner 运行 Beam 管道,数据从 BigQuery 通过公共互联网传输到本地笔记本电脑,且在本地执行,速度较慢。需要将管道迁移到 GCP 并使用
航班延迟数据优化实践
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



