7、Amazon SageMaker:机器学习全流程解决方案

Amazon SageMaker:机器学习全流程解决方案

1. 数据处理

在机器学习工作流程中,数据处理是关键的前置步骤。在使用 Amazon SageMaker 时,可以利用 SageMaker Python SDK 中的 PySparkProcessor 类进行数据处理。通常会使用多个实例来处理数据,此时可以通过 S3 键对输入对象进行分片,确保每个实例处理相同数量的输入文件。

2. SageMaker GroundTruth

SageMaker GroundTruth 在机器学习生命周期的预处理阶段提供了重要功能。使用监督训练算法训练机器学习模型时,需要高质量的标注数据。GroundTruth 为常见任务类型(如图像分类或文档分类)提供了内置的标注功能,同时也支持完全自定义的工作流程。

  • 劳动力选择 :可以使用公共劳动力(Amazon Mechanical Turk)、私有劳动力或供应商公司进行数据标注。
  • 自动化数据标注 :对于某些任务类型,可以选择使用自动化数据标注,它利用主动学习并行训练模型,并决定将哪些数据样本发送给人工标注员。
  • 用户界面 :涉及图像、视频帧、文本数据和 LiDAR 数据的内置任务类型具有安全的托管用户界面,也可以为数据标注作业提供自定义用户界面。

更多关于 SageMaker GroundTruth 的信息,请访问:https://docs.aws.amazon.com/sagemaker/latest/dg/data-l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值