谷歌云数据处理与机器学习引擎实践指南
1. Google Cloud Dataprep 简介
Google Cloud Dataprep 是一种托管云服务,用于快速进行数据探索和转换。它借助 Google Cloud Dataflow 的分布式处理能力实现自动扩展,能轻松清理和转换大型数据集,适用于结构化和非结构化数据。
1.1 开始使用 Cloud Dataprep
- 从 GCP 仪表板左上角点击三横线,在大数据部分向下滚动找到“Dataprep”。
- 同意并接受所有许可协议,Dataprep 会在 GCS 上创建一个存储桶,用于存储上传的文件和转换输出。
1.2 使用流程转换数据
使用 Dataprep 流程来组织和管理数据清理与转换过程,具体步骤如下:
1. 在 Dataprep 仪表板右上角点击“Create Flow”按钮,输入自定义流程名称后点击“Create”。
2. 在终端运行以下命令将数据集放入 GCS 存储桶:
- 创建新存储桶: gsutil mb gs://my-dataprep-data
- 从 GitHub 传输数据到存储桶: gsutil cp crypto-markets.csv gs://my-dataprep-data
- 将数据集从 my-dataprep-data 存储桶传输到 Dataprep 暂存存储桶: gsutil cp -r gs://my-dataprep-data gs://dat
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



