数据标注与增强的高级策略
1. 嵌入和上下文表示的使用方式
在数据标注过程中,嵌入和上下文表示有以下几种使用方式:
- 使用现有的嵌入或为部署的模型调整预训练模型。
- 利用数据中的固有标签,在自己的数据上训练一组自定义的嵌入。
- 在与实际任务相邻的任务上更高效地获取人工标注,然后根据这些标注构建上下文模型。
2. 从现有模型进行迁移学习
迁移学习是将为一个任务设计的模型调整适应到另一个任务的过程。在计算机视觉中,最著名的是将 ImageNet 模型应用于其他任务。
假设要进行图像语义分割,识别“动物”“骑自行车的人”“行人”和“标志”。有 200 万张图像,每张图像的语义分割标注大约需要一小时,预算相当于六年的全职标注时间。完成语义分割标注大约能处理 12000 张图像(部分作为评估数据),虽然 12000 个训练项是可以接受的,但仅占可用数据的不到 1%,一些稀有标签可能只有 1000 个示例。
而 ImageNet 有数百万人、自行车和动物的示例,其模型中的神经元包含这些对象类型的表示。因此,仅在 12000 个示例上训练的语义分割模型可以利用 ImageNet 中在数百万示例上训练的表示,这可能有助于提升模型性能。
3. 来自相邻易标注任务的表示
使用像 ImageNet 这样的现有模型的缺点是它在不同的标签和不同类型的图像上训练。可以将部分标注预算用于根据语义分割任务中使用的相同标签对数据进行图像级标注。
语义分割耗时较长,但可以创建简单的标注任务,如“这张图像中有动物吗?”,每张图像仅需 20 秒,比全分割更快。如果将六年的预算中
超级会员免费看
订阅专栏 解锁全文
1195

被折叠的 条评论
为什么被折叠?



