15、深入探索:将航班数据加载到 BigQuery 及相关操作

深入探索:将航班数据加载到 BigQuery 及相关操作

1. BigQuery 概述

BigQuery 是一种列式数据库,对于处理全量数据的只读查询尤为有效。它采用无服务器架构,可自动扩展至数千个计算节点,无需预先分配集群,功能强大且成本低廉。在成本方面,默认的按需定价模式通常是使用 BigQuery 的最优方式。

2. 数据暂存于 Cloud Storage

数据处理代码对存储在逗号分隔值(CSV)文件中的航班数据进行时间校正,将时间戳转换为 UTC 时间,添加与机场位置对应的额外列,并将输出文件以 CSV 格式写入 Cloud Storage。为了演示如何在不编写 Cloud Dataflow 管道的情况下将数据导入 BigQuery,我们将使用这些时间校正后的 CSV 文件。

在将数据从外部导入 BigQuery 时,对于小数据集,可以使用 Google Cloud SDK(gcloud)附带的 bq 命令行工具直接从本地硬件导入。但对于大数据集,建议先将数据加载到 Cloud Storage,再将其作为 BigQuery 的暂存区。对于较大的文件,使用 gsutil 导入到 Cloud Storage 更好,因为它利用多线程和可恢复上传功能,更适合公共互联网。

那么何时应将数据保存在 Cloud Storage,何时应存储在 BigQuery 呢?这取决于你对数据的操作和分析类型:
- 如果你主要运行需要读取普通文件的自定义代码,或分析涉及读取整个数据集,建议使用 Cloud Storage。
- 如果你希望对数据运行交互式 SQL 查询,建议将数据存储在 BigQuery。

3. 访
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值