向 BigQuery 加载数据的全面指南
1. 基础概念
在数据处理中,像美国各州边界这类数据变化极少,属于缓慢变化维度。截至目前,美国州界的最后一次变动发生在 2017 年 1 月 1 日,仅影响了 19 位房主和一家加油站。所以,州界数据通常只需加载一次,分析人员查询单表时往往会忽略数据随时间的变化。
然而,并非所有情况都能忽略时间对数据正确性的影响。例如土地产权公司需要追踪土地所有权,审计公司需要验证不同年份货物运输的州税缴纳情况,这时就需要能够查询过去年份的州界数据。因此,在进行一次性数据加载时,要仔细考虑是否定期更新数据,并让用户了解所查询数据的版本。
2. 从本地源加载数据
以美国政府发布的大学“成绩单”数据为例,介绍如何将数据加载到 BigQuery 中。该原始数据可从 catalog.data.gov 获取,也可在 GitHub 仓库中找到压缩后的文件 04_load/college_scorecard.csv.gz。
为优化带宽传输,将原始 136 MB 的 CSV 文件压缩为 18 MB 的 gzip 文件。不过,BigQuery 加载命令虽能处理 gzip 文件,但无法并行加载其部分内容。若使用可拆分文件(如已存储在云存储中的未压缩 CSV 文件,或像 Avro 这种内部块压缩且整体可拆分的文件格式),加载速度会更快。
以下是具体操作步骤:
1. 打开浏览器,访问 https://console.cloud.google.com/cloudshell 开启 Cloud Shell。
2. 在终端窗口输入: git clone https://github.com
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



