亚马逊SageMaker数据处理与AutoML实战指南
1. SageMaker Data Wrangler管道导出
SageMaker Data Wrangler提供了四种简单的方式来导出管道:
- 纯Python代码,可直接集成到机器学习项目中。
- 运行SageMaker Processing作业的Jupyter笔记本,将管道应用于数据集并将结果保存到S3,笔记本还包含可选的模型训练代码。
- 将处理后的数据集存储在SageMaker Feature Store中的Jupyter笔记本。
- 创建SageMaker Pipelines工作流的Jupyter笔记本,包含处理数据集和在其上训练模型的步骤。
导出步骤如下:
1. 从导出视图中,点击“Steps”并选择要导出的步骤,这里可全部选择。
2. 点击“Export step”并选择四种选项之一,例如选择“Save to S3”以运行SageMaker Processing作业。
3. 这将打开一个新的笔记本,运行作业。当“Job Status & S3 Output Location”单元格完成后,数据集将存储在S3中。
4. 下载并打开存储在该位置的CSV文件,即可看到处理后的数据集,可直接用于训练模型。
2. Amazon SageMaker Processing概述
数据集通常需要大量工作才能准备好进行训练,训练完成后,可能还需要运行额外的作业来后处理预测数据并在不同数据集上评估模型。实验阶段完成后,自动化这些作业是很好的做法。
Amazon SageMaker Processing