Amazon SageMaker:机器学习全流程解决方案
1. 数据处理
在机器学习工作流程中,数据处理是关键的前置步骤。在使用 Amazon SageMaker 时,可以利用 SageMaker Python SDK 中的 PySparkProcessor 类进行数据处理。通常会使用多个实例来处理数据,此时可以通过 S3 键对输入对象进行分片,确保每个实例处理相同数量的输入文件。
2. SageMaker GroundTruth
SageMaker GroundTruth 在机器学习生命周期的预处理阶段提供了重要功能。使用监督训练算法训练机器学习模型时,需要高质量的标注数据。GroundTruth 为常见任务类型(如图像分类或文档分类)提供了内置的标注功能,同时也支持完全自定义的工作流程。
- 劳动力选择 :可以使用公共劳动力(Amazon Mechanical Turk)、私有劳动力或供应商公司进行数据标注。
- 自动化数据标注 :对于某些任务类型,可以选择使用自动化数据标注,它利用主动学习并行训练模型,并决定将哪些数据样本发送给人工标注员。
- 用户界面 :涉及图像、视频帧、文本数据和 LiDAR 数据的内置任务类型具有安全的托管用户界面,也可以为数据标注作业提供自定义用户界面。
更多关于 SageMaker GroundTruth 的信息,请访问:https://docs.aws.amazon.com/sagemaker/latest/dg/data-l
超级会员免费看
订阅专栏 解锁全文
106

被折叠的 条评论
为什么被折叠?



