谷歌云数据处理与机器学习服务全解析
1. Google Cloud Dataprep 简介
Google Cloud Dataprep 是一项托管云服务,用于快速进行数据探索和转换。它借助 Google Cloud Dataflow 的分布式处理能力实现自动扩展,能轻松清理和转换大型数据集,适用于结构化和非结构化数据。其优势在于提供简单的可视化界面进行数据清理,无需编码即可快速重组数据集,大大加快数据准备时间,还能处理 PB 级数据。
2. 开始使用 Cloud Dataprep
以下是使用 Cloud Dataprep 的具体步骤:
1. 从 GCP 仪表板,点击左上角的三道横线,向下滚动到“BIG DATA”部分的“Dataprep”。
2. 由于 Dataprep 是 GCP 与 Trifacta 公司合作提供的服务,开始使用时需同意并接受所有许可协议。Dataprep 会在 GCS 上创建一个存储桶,用于存储上传到 Dataprep 的文件及其转换输出。
3. 使用 Flows 转换数据
Dataprep flow 是用于组织和管理数据清理与转换过程中涉及的数据集和操作的对象,具体操作步骤如下:
1. 创建 Flow :在 Dataprep 仪表板右上角点击“Create Flow”按钮,输入自定义的 Flow 名称,然后点击“Create”。
2. 放置数据集到 GCS 存储桶 :在终端运行以下命令:
- 创建新存储桶: gsutil mb gs://my-dataprep-data
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



