高级数据标注与增强:技术解析与应用策略
1. 合成数据、数据创建与数据增强
1.1 合成数据的应用案例
合成数据在机器学习中有特定的应用场景,其中信用卡号码扫描是一个广泛使用纯合成数据的案例。当你在手机应用中添加信用卡号码时,可选择拍照而非手动输入。识别信用卡号码的模型几乎肯定是基于纯合成数据构建的,无需人工标注。这一应用符合多种情况:信用卡号码最初是结构化数据,印在实体卡上,对其拍照属于对 16 位数字的受限问题重构;不存在大量开放的信用卡扫描数据仓库,出于隐私和安全考虑,数据科学家和标注员不能查看实际卡片的扫描图像进行标注;若扫描失败,最终用户通常也愿意手动输入卡号。
1.2 数据创建
1.2.1 人工创建数据
解决数据不足问题的一个有效方法是让标注员创建数据。这在创建语音数据中很常见。对于文本数据,这种方法能有效填补数据空白。尽管不如自然文本真实,但总比没有数据好。
1.2.2 自动化数据创建技术
近年来,一些有趣的自动化数据创建技术将数据创建与合成数据相结合,例如用于图像的生成对抗网络(GANs)和用于文本的语言模型。
- 图像数据创建 :若需要自行车图片,可在现有自行车图片上训练 GANs,生成新的逼真自行车图片。
- 文本数据创建 :可以训练语言模型来创建包含特定短语或关于特定主题的新句子。这些模型通常与用于上下文嵌入的预训练模型类型相同。不过,生成的数据很少 100% 准确,人工审核有助于筛选出逼真的数据。
此外,当数据由人工或自动化过程创建时,有助于解决训
超级会员免费看
订阅专栏 解锁全文
860

被折叠的 条评论
为什么被折叠?



