向 BigQuery 加载数据全攻略
1. 数据加载基础认知
在数据处理中,像美国各州边界这类数据变化极少,属于缓慢变化维度。截至目前,美国州边界的最后一次变更发生在 2017 年 1 月 1 日,仅影响了 19 位房主和一家加油站。所以,这类数据常只需加载一次,分析师查询单表时往往会忽略数据随时间的变化。
不过,并非所有情况都能忽略时间对数据正确性的影响。若州边界数据用于土地产权公司追踪地块所有权,或审计公司验证不同年份货物运输的州税缴纳情况,就需能查询过去年份的州边界数据。因此,在进行一次性数据加载时,要慎重考虑是否定期更新数据,并让数据使用者了解所查询数据的版本。
2. 从本地源加载数据
2.1 数据准备
美国政府发布高校“成绩单”数据,帮助消费者比较高等教育的成本和感知价值。原始数据可从 catalog.data.gov 获取,为方便操作,也可从 GitHub 仓库获取压缩文件 04_load/college_scorecard.csv.gz。该 CSV 文件从 data.gov 下载后,使用开源工具 gzip 进行了压缩。
压缩文件原因在于,原始未压缩文件约 136 MB,而压缩后仅 18 MB,可优化传输带宽。不过,BigQuery 加载命令虽能处理 gzip 文件,但无法并行加载其部分内容。若提供可拆分文件(如已存储在云存储中的未压缩 CSV 文件,或像 Avro 这种内部块压缩且整体可拆分的文件),加载速度会更快。
2.2 查看本地数据
可通过 Cloud Shell 使用 zless 命令查看压缩文件内容,具体步骤如下:
1. 在浏览器中访问
超级会员免费看
订阅专栏 解锁全文
62

被折叠的 条评论
为什么被折叠?



