Data Augmentation

数据增强通过转化合成新的数据,解决训练数据多样性和量的问题。包括图像、文本等多种类型的数据增强,如图像的几何和色彩增强、基于GAN和NAS的增强、文本的回译和同义词替换等。数据增强可在训练前(线下)或小批量训练时(线上)执行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量。模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元。一般在训练过程中训练隐藏单元越多需要的数据越多,即任务复杂度与参数量与需要的数据量成正比。由于训练复杂任务时数据的缺乏,迁移学习往往被应用并取得较好的结果但是对于指定任务创建预训练模型依旧严峻。另一种解决数据不足问题的技术便是数据增强即通过在可用数据上转化合成新的数据。数据增强可用来解决训练数据的多样性和数据量的问题。

数据增强类型

数据增强技术依赖于数据的类型。对于常规的数字型数据,常见的技术包括SMOTE或者SMOTE NC等,这些技术在分类任务上可以就解释类别不平衡。对于非结构化的数据,根据数据类型和任务的不同有所不同。

图的数据增强

​这里我们专注于图层级的数据增强。给定M个图的数据集中的一个图G ∈ { G m : m ∈ M },我们可以构造满足以下条件的扩充图G:G∼q(G^∣G),其中q(⋅∣G) 是原始条件下的扩充分布,这事预先定义的,代表着数据分布的人类先验。例如,对于图像分类,旋转和裁剪的应用先对人们进行编码,然后人们将从旋转的图像或其局部补丁中获取相同的基于分类的语义知识。

​ 图数据集来自不同领域,较难获取图像中直观且通用的图数据增强方式。下图是本文总结的4种数据增强手段:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小源er

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值