36、高级数据标注与增强：技术解析与应用策略

最新推荐文章于 2025-10-04 15:53:08 发布

beta5

最新推荐文章于 2025-10-04 15:53:08 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同：数据驱动AI未来文章标签：合成数据数据创建数据增强

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beta5/article/details/151670183

人机协同：数据驱动AI未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高级数据标注与增强：技术解析与应用策略

1. 合成数据、数据创建与数据增强

1.1 合成数据的应用案例

合成数据在机器学习中有特定的应用场景，其中信用卡号码扫描是一个广泛使用纯合成数据的案例。当你在手机应用中添加信用卡号码时，可选择拍照而非手动输入。识别信用卡号码的模型几乎肯定是基于纯合成数据构建的，无需人工标注。这一应用符合多种情况：信用卡号码最初是结构化数据，印在实体卡上，对其拍照属于对 16 位数字的受限问题重构；不存在大量开放的信用卡扫描数据仓库，出于隐私和安全考虑，数据科学家和标注员不能查看实际卡片的扫描图像进行标注；若扫描失败，最终用户通常也愿意手动输入卡号。

1.2 数据创建

1.2.1 人工创建数据

解决数据不足问题的一个有效方法是让标注员创建数据。这在创建语音数据中很常见。对于文本数据，这种方法能有效填补数据空白。尽管不如自然文本真实，但总比没有数据好。

1.2.2 自动化数据创建技术

近年来，一些有趣的自动化数据创建技术将数据创建与合成数据相结合，例如用于图像的生成对抗网络（GANs）和用于文本的语言模型。
- 图像数据创建 ：若需要自行车图片，可在现有自行车图片上训练 GANs，生成新的逼真自行车图片。
- 文本数据创建 ：可以训练语言模型来创建包含特定短语或关于特定主题的新句子。这些模型通常与用于上下文嵌入的预训练模型类型相同。不过，生成的数据很少 100% 准确，人工审核有助于筛选出逼真的数据。

此外，当数据由人工或自动化过程创建时，有助于解决训

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。