27、大数据处理:航班延迟数据计算与优化实践

航班延迟数据优化实践

大数据处理:航班延迟数据计算与优化实践

1. BigQuery 查询优化

在使用 BigQuery 进行查询时,如果遇到 ORDER BY 操作导致资源超出的问题,可采用以下解决方案:
- 去除 ORDER BY :很多时候我们只需要前 10 条结果,添加 LIMIT 10 后,整个结果集就无需排序。
- 分组排序 :使用 GROUP BY 对数据进行分组,并在每个组内进行排序,这样可以增加并行性。
- 分区排序 :对表进行分区,并在分区内进行排序,同样能增加并行性。

总之,要为 BigQuery 提供并行执行查询的方式。

2. Cloud Dataflow 处理无序数据的时间窗口

Cloud Dataflow 处理无序数据的时间窗口时,并非像我们最初想象的那样,在时间戳跨越时立即触发操作。它利用事件时间、系统时间以及允许延迟等属性,将按键分组操作限制在一个时间窗口内,因此输入数据无需排序。这体现了集成端到端数据科学平台的优势。

3. 现存问题及解决方案

目前存在两个问题:
- 程序运行时间长 :当前使用 DirectRunner 运行 Beam 管道,数据从 BigQuery 通过公共互联网传输到本地笔记本电脑,且在本地执行,速度较慢。需要将管道迁移到 GCP 并使用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值