36、高级数据标注与增强:技术解析与应用策略

高级数据标注与增强:技术解析与应用策略

1. 合成数据、数据创建与数据增强

1.1 合成数据的应用案例

合成数据在机器学习中有特定的应用场景,其中信用卡号码扫描是一个广泛使用纯合成数据的案例。当你在手机应用中添加信用卡号码时,可选择拍照而非手动输入。识别信用卡号码的模型几乎肯定是基于纯合成数据构建的,无需人工标注。这一应用符合多种情况:信用卡号码最初是结构化数据,印在实体卡上,对其拍照属于对 16 位数字的受限问题重构;不存在大量开放的信用卡扫描数据仓库,出于隐私和安全考虑,数据科学家和标注员不能查看实际卡片的扫描图像进行标注;若扫描失败,最终用户通常也愿意手动输入卡号。

1.2 数据创建

1.2.1 人工创建数据

解决数据不足问题的一个有效方法是让标注员创建数据。这在创建语音数据中很常见。对于文本数据,这种方法能有效填补数据空白。尽管不如自然文本真实,但总比没有数据好。

1.2.2 自动化数据创建技术

近年来,一些有趣的自动化数据创建技术将数据创建与合成数据相结合,例如用于图像的生成对抗网络(GANs)和用于文本的语言模型。
- 图像数据创建 :若需要自行车图片,可在现有自行车图片上训练 GANs,生成新的逼真自行车图片。
- 文本数据创建 :可以训练语言模型来创建包含特定短语或关于特定主题的新句子。这些模型通常与用于上下文嵌入的预训练模型类型相同。不过,生成的数据很少 100% 准确,人工审核有助于筛选出逼真的数据。

此外,当数据由人工或自动化过程创建时,有助于解决训

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值