自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量。模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元。一般在训练过程中训练隐藏单元越多需要的数据越多,即任务复杂度与参数量与需要的数据量成正比。由于训练复杂任务时数据的缺乏,迁移学习往往被应用并取得较好的结果但是对于指定任务创建预训练模型依旧严峻。另一种解决数据不足问题的技术便是数据增强即通过在可用数据上转化合成新的数据。数据增强可用来解决训练数据的多样性和数据量的问题。
数据增强类型
数据增强技术依赖于数据的类型。对于常规的数字型数据,常见的技术包括SMOTE或者SMOTE NC等,这些技术在分类任务上可以就解释类别不平衡。对于非结构化的数据,根据数据类型和任务的不同有所不同。
图的数据增强
这里我们专注于图层级的数据增强。给定M个图的数据集中的一个图G ∈ { G m : m ∈ M },我们可以构造满足以下条件的扩充图G:G∼q(G^∣G),其中q(⋅∣G) 是原始条件下的扩充分布,这事预先定义的,代表着数据分布的人类先验。例如,对于图像分类,旋转和裁剪的应用先对人们进行编码,然后人们将从旋转的图像或其局部补丁中获取相同的基于分类的语义知识。
图数据集来自不同领域,较难获取图像中直观且通用的图数据增强方式。下图是本文总结的4种数据增强手段: