高级数据标注与增强技术全解析
1. 嵌入与上下文表示的应用方式
在数据标注过程中,嵌入和上下文表示能发挥重要作用,主要有以下几种应用方式:
- 使用现有的嵌入或为部署的模型调整预训练模型。
- 利用数据中的固有标签在自己的数据上训练一组自定义的嵌入。
- 在与实际任务相邻的任务上更高效地获取人工标注,然后根据这些标注构建上下文模型。
1.1 从现有模型进行迁移学习
传统的神经网络迁移学习,是将为一个任务设计的模型调整应用到另一个任务。计算机视觉中最著名的例子是将 ImageNet 模型应用于其他任务。
假设要对图像进行语义分割,识别“动物”“骑自行车的人”“行人”和“标志”。有 200 万张图像,每张图像进行语义分割标注大约需要一小时,预算相当于 6 年的全职标注时间。完成语义分割标注大约能处理 12000 张图像(部分作为评估数据),这虽然是可接受的训练数量,但不到可用数据的 1%,一些稀有标签可能只有 1000 个示例。
而 ImageNet 有数百万人、自行车和各种动物的示例。使用现有的 ImageNet 数据库,该模型中的神经元会包含这些对象类型的表示。只在 12000 个示例上训练的语义分割模型,可以利用在数百万示例上训练的 ImageNet 中的表示,这可能有助于提升模型性能。
1.2 来自相邻易标注任务的表示
使用像 ImageNet 这样的现有模型存在不足,它是在不同的标签和不同类型的图像上训练的。可以将部分标注预算用于根据语义分割任务中使用的相同标签对数据进行图像级标注。虽然语义分割耗时,但可以创建简单的标注任务,如“这张图像中有动物吗?”,每张
超级会员免费看
订阅专栏 解锁全文

720

被折叠的 条评论
为什么被折叠?



