云端航班数据摄取与管理指南
1. 项目ID与数据初探
在云端操作时,你可以从云平台控制台仪表板获取唯一的项目ID,它可能与你为项目指定的通用名称不同。默认情况下,云平台会尝试提供与项目名称相同的项目ID,但如果该名称已被占用,你将获得一个自动生成的唯一项目ID。因此,在为项目命名时要避免使用敏感名称。
在探索航班数据时,我们发现每个CSV文件的表头很清晰,第一行数据示例如下:
2015-03-01,UA,19977,UA,1025,14771,1477101,32457,SFO,11618,1161802,31703,EWR,0637,0644,7.00,15.00,0659,1428,12.00,1450,1440,-10.00,0.00,,0.00,2565.00
此时,掌握一些Unix脚本知识在数据分析的初始阶段会非常有用。
2. 数据上传至Google Cloud Storage
为了保证原始数据集的持久性,我们将其上传到Google Cloud Storage。具体步骤如下:
1. 创建存储桶 :存储桶本质上是存储在云存储中的二进制大对象(blobs)的命名空间,你可以从Google Cloud Platform控制台创建存储桶。建议创建单区域存储桶,原因后续会详细说明。
2. 存储桶命名 :存储桶名称必须全局唯一,即不仅在你的项目或组织内唯一,在整个Google Cloud Platform中都要唯一。为避免泄露敏感信息,常见
云端航班数据摄取与管理
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



