8、向 BigQuery 加载数据的全面指南

向 BigQuery 加载数据的全面指南

1. 基础概念

在数据处理中,像美国各州边界这类数据变化极少,属于缓慢变化维度。截至目前,美国州界的最后一次变动发生在 2017 年 1 月 1 日,仅影响了 19 位房主和一家加油站。所以,州界数据通常只需加载一次,分析人员查询单表时往往会忽略数据随时间的变化。

然而,并非所有情况都能忽略时间对数据正确性的影响。例如土地产权公司需要追踪土地所有权,审计公司需要验证不同年份货物运输的州税缴纳情况,这时就需要能够查询过去年份的州界数据。因此,在进行一次性数据加载时,要仔细考虑是否定期更新数据,并让用户了解所查询数据的版本。

2. 从本地源加载数据

以美国政府发布的大学“成绩单”数据为例,介绍如何将数据加载到 BigQuery 中。该原始数据可从 catalog.data.gov 获取,也可在 GitHub 仓库中找到压缩后的文件 04_load/college_scorecard.csv.gz。

为优化带宽传输,将原始 136 MB 的 CSV 文件压缩为 18 MB 的 gzip 文件。不过,BigQuery 加载命令虽能处理 gzip 文件,但无法并行加载其部分内容。若使用可拆分文件(如已存储在云存储中的未压缩 CSV 文件,或像 Avro 这种内部块压缩且整体可拆分的文件格式),加载速度会更快。

以下是具体操作步骤:
1. 打开浏览器,访问 https://console.cloud.google.com/cloudshell 开启 Cloud Shell。
2. 在终端窗口输入: git clone https://github.com

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值