深入探索:将航班数据加载到 BigQuery 及相关操作
1. BigQuery 概述
BigQuery 是一种列式数据库,对于处理全量数据的只读查询尤为有效。它采用无服务器架构,可自动扩展至数千个计算节点,无需预先分配集群,功能强大且成本低廉。在成本方面,默认的按需定价模式通常是使用 BigQuery 的最优方式。
2. 数据暂存于 Cloud Storage
数据处理代码对存储在逗号分隔值(CSV)文件中的航班数据进行时间校正,将时间戳转换为 UTC 时间,添加与机场位置对应的额外列,并将输出文件以 CSV 格式写入 Cloud Storage。为了演示如何在不编写 Cloud Dataflow 管道的情况下将数据导入 BigQuery,我们将使用这些时间校正后的 CSV 文件。
在将数据从外部导入 BigQuery 时,对于小数据集,可以使用 Google Cloud SDK(gcloud)附带的 bq 命令行工具直接从本地硬件导入。但对于大数据集,建议先将数据加载到 Cloud Storage,再将其作为 BigQuery 的暂存区。对于较大的文件,使用 gsutil 导入到 Cloud Storage 更好,因为它利用多线程和可恢复上传功能,更适合公共互联网。
那么何时应将数据保存在 Cloud Storage,何时应存储在 BigQuery 呢?这取决于你对数据的操作和分析类型:
- 如果你主要运行需要读取普通文件的自定义代码,或分析涉及读取整个数据集,建议使用 Cloud Storage。
- 如果你希望对数据运行交互式 SQL 查询,建议将数据存储在 BigQuery。
超级会员免费看
订阅专栏 解锁全文
372

被折叠的 条评论
为什么被折叠?



