图像数据探索与规则标注:从基础到实践
1. 图像数据增强
数据增强是一种用于扩充数据集的有效方法。可以使用 flow 方法为每个输入图像生成多个增强图像。具体操作是,该方法接收输入图像数组、批量大小(这里为 1)以及在步骤 3 中定义的各种参数,然后返回一个生成器,该生成器可以即时生成增强图像。通过 save_to_dir 、 save_prefix 和 save_format 参数,可以将每个增强图像保存,文件名前缀为 aug_ 。
2. 图像分类与标注的挑战
图像分类是根据图像内容将其归类到一个或多个类别的过程。由于图像的高度可变性和复杂性,这是一项具有挑战性的任务。机器学习技术在图像分类中取得了巨大成功,但机器学习模型需要大量的标注数据才能有效训练。
3. Snorkel 与弱监督
Snorkel 是一个开源数据平台,它使用弱监督技术来生成大量的标注数据。弱监督允许使用嘈杂或不完整的监督源(如启发式规则、模式)来标注数据。与传统的半监督学习不同,Snorkel 主要在弱监督范式下运行,其标注过程可能涉及嘈杂、有限或不精确的规则,而不是大量的标注数据。
在 Snorkel 中,用户创建标注函数(LFs)来表达基于启发式或规则的标注策略。这些 LF 可能并不完美,生成的标签中可能存在冲突或噪声。Snorkel 的标注模型会学习去噪并组合这些弱标签,为训练数据创建更准确和可靠的标注。
4. 基于图像可视化创建标注规则
创建
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



