高级数据标注与增强:提升模型性能的多元策略
1. 嵌入与上下文表示的应用
在数据标注过程中,嵌入和上下文表示有多种应用方式:
- 使用现有的嵌入或为部署的模型调整预训练模型。
- 利用数据中的固有标签在自己的数据上训练自定义的嵌入集。
- 在与实际任务相邻的任务上更高效地获取人工标注,然后根据这些标注构建上下文模型。
1.1 从现有模型进行迁移学习
传统的神经网络迁移学习,是将为一个任务设计的模型调整用于另一个任务。计算机视觉中常见的是将 ImageNet 模型应用于其他任务。
例如,在语义分割任务中,要识别图像中的“动物”“骑行者”“行人”和“标志”。假设有 200 万张图像,每张图像进行语义分割标注约需 1 小时,且有相当于 6 年全职标注的预算。完成语义分割标注大约能处理 12000 张图像(部分会作为评估数据),这虽可用于训练,但仅占可用数据的不到 1%,一些稀有标签可能只有 1000 个示例。
而 ImageNet 有数百万人、自行车和各类动物的示例。因此,可利用现有的 ImageNet 数据库,其模型中的神经元包含了这些对象类型的表示。只在 12000 个示例上训练的语义分割模型,可借助 ImageNet 中在数百万示例上训练得到的表示,这可能有助于提升模型性能。
1.2 相邻易标注任务的表示
使用像 ImageNet 这样的现有模型存在不足,因为它是在不同标签和不同类型的图像上训练的。可以将部分标注预算用于根据语义分割任务的相同标签对数据进行图像级标注。
语义分割耗时较长,但可以创建简单的标注任务,如“这张图像中有动物吗?”,每张
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



