使用 Amazon SageMaker 进行数据标注与转换
1. 使用 Amazon SageMaker Ground Truth 标注数据
1.1 使用工作团队
使用 Ground Truth 的第一步是创建一个工作团队,即负责标注数据样本的一组工作人员。操作步骤如下:
1. 进入 SageMaker 控制台,在左侧垂直菜单中,点击“Ground Truth”,然后点击“Labeling workforces”。
2. 这里有三种可用的工作团队类型:Amazon Mechanical Turk、Vendor 和 Private。下面详细介绍它们的特点及适用场景:
- Amazon Mechanical Turk :官网为 https://www.mturk.com/ ,它可以轻松地将大型批量作业分解为小的工作单元,由分布式的劳动力进行处理。通过 Mechanical Turk,你可以招募到全球各地的数万甚至数十万工人。当你需要标注极其庞大的数据集时,这是一个很好的选择。例如,一个由 1000 小时视频组成的自动驾驶数据集,每帧都需要处理以识别其他车辆、行人、路标等。如果要标注每一帧,总共会有 1000 小时 x 3600 秒 x 24 帧/秒 = 8640 万张图像!显然,你必须扩大标注团队的规模才能完成这项工作,而 Mechanical Turk 可以帮助你实现这一点。
- Vendor workforce :尽管 Mechanical Turk 具有可扩展性,但有时你需