Investigating the effectiveness of data augmentation from similarity and diversity: An empirical stu

0、abstract

数据扩充已成为一种广泛采用的技术,用于提高深度神经网络的泛化能力。然而,仅基于模型训练来评估数据增强方法的有效性在计算上要求很高,并且缺乏可解释性。此外,缺乏定量标准阻碍了我们对数据增强方法的潜在机制和新技术的发展的理解。为此,我们提出了可解释的定量措施,将数据增强方法的有效性分解为两个关键维度:相似性和多样性。所提出的相似性度量描述了原始数据集和增强数据集之间的总体相似性,而多样性度量则根据类别量化了原始数据集中和增强数据集中固有复杂性的差异。重要的是,我们提出的措施与模型训练无关,确保了计算的效率。通过在几个基准数据集上的实验,包括MNIST、CIFAR10、CIFAR-100和ImageNet,我们证明了我们的措施在评估各种数据增强方法的有效性方面的有效性。此外,尽管所提出的措施很简单,但它们有可能指导数据增强技术的设计和参数调整,并在开始大规模模型训练之前验证数据增强方法的有效性。

1. Introduction

数据增强已在深度神经网络(DNN)中广泛采用,以减轻过拟合风险并提高模型的性能[1,2]。在深度学习的背景下,数据扩充(DA)是指通过对现有数据样本应用各种转换或修改来人为扩展数据集的技术。值得注意的是,实现最先进(SOTA)性能的DNN通常使用各种DA方法,如AutoAugment[3]和RandAugment[4]。
尽管DA方法是有效的,但现有的DA方法通常基于其在特定任务上的表现来评估其功效,例如图像分类任务中模型的分类精度[5,6]。不幸的是,基于模型训练的DA评估方法存在局限性。首先,已经观察到不同的图像数据集对增强方法表现出不同的偏好[6,7]。例如,Cutout[8]已被证明对CIFAR10[9]有效,但对ImageNet[10]无效。同样,AutoAugment也证明了增强策略的最佳组合在不同的数据集中是不同的[3]。因此,评估DA方法需要在各种数据集上训练大量的深度模型,从而导致显著的计算开销。其次,缺乏模型训练不可知的定量测量阻碍了DA方法的可解释性[11]。DA方法的基本机制仍然不透明,并且没有既定的标准来指导DA方法的设计和参数调整。例如,传统的DA方法旨在生成类似自然场景(或可能在测试集中看到但在训练集中看不到的场景)的图像,例如旋转图像以模拟几何变形。然而,确定DA方法参数的最优值通常需要训练许多深度模型,这给研究人员带来了实际挑战。

尽管评估指标,如Inception Score(IS)[12]和Frechet Inception Score(FID)[13],已被用于评估深度生成模型[14]生成的合成图像的质量,但它们不适用于解释DA方法的有效性,尤其是那些被认为不现实的方法。这些指标(例如,IS和FID)主要关注生成图像的质量和多样性,假设与真实数据非常相似。然而,在DA研究的背景下,重点从高质量数据转移到生成各种训练数据,旨在减轻过度拟合风险。如图1所示,GridMask[6]通过删除均匀分布的正方形区域来生成图像,Mixup[15]通过创建输入和标签对的凸组合来生成虚拟训练样本。尽管在增强模型性能方面是有效的,但这些方法生成的增强图像不是自然场景的模拟,在视觉上毫无意义;因此,使用这些评估度量来评估增强图像的质量是不合理的。因此,评估深度生成模型和DA方法之间的差异需要开发一个定量标准来评估DA技术的有效性。最近,[16]首次提出了一项关于affinity 和diversity的实证研究,以评估DA方法,而affinity 和diversity的计算都涉及模型训练。基于模型训练的结果,这两个指标缺乏可解释性,并引入了高计算成本,因为确定affinity 和diversity需要相当于确定最终测试准确性的努力。鉴于这些挑战,迫切需要建立一个定量标准来研究DA方法的有效性

在本文中,我们提出了从相似性和多样性来评估数据增强(DA)方法有效性的定量措施。虽然很简单,但所提出的措施是高效的,因为它们独立于模型训练。由于DA方法在不同数据集上的有效性不一致[6-8],我们不是使用单一的度量,而是在我们提出的相似性-多样性平面上评估DA方法。相似性度量捕获了原始数据和增强数据之间的总体相似性,而多样性度量量化了原始数据与增强数据之间关于类别的固有复杂性的变化。因此,我们将数据增强的功效分解为相似性和多样性。为了解决量化图像数据集之间距离的挑战[16,17],特别是在具有图像数据和相应标签的监督学习中,我们以几何意义的方式使用最优传输(OT)距离来比较原始和增强训练数据集的数据标签分布[17,18]。此外,我们引入了一种受主成分分析(PCA)[19]和生物多样性[20]启发的新的多样性度量,该度量根据类别量化原始数据和扩增数据之间的不相关性。经验证据表明,视觉相似性和多样性对DA方法的有效性几乎没有影响[6,15],这促使我们探索用于测量目的的特征空间嵌入。通过正式定义相似性和多样性度量,我们专注于图像级DA方法,并在CIFAR-10和CIFAR100上评估220种不同的增强,在ImageNet数据集上评估143种。所研究的DA方法包括既有广泛的变换族又有更精细的变换参数的基本图像变换,以及一些SOTA DA方法,如Mixup[15]、CutMix[21]、Cutout[8]、Randomerasing[22]、GridMask[6]、AutoAugment[3]、RandAugment[4]和KeepAugment[23]等。

综上所述,这项工作的贡献如下:

  • 1)我们提出了与模型训练无关的新的定量测量方法,以研究基于相似性和多样性的DA方法的有效性。通过实验,我们证明了这些措施为基于增强数据的相似性和多样性评估DA方法的有效性提供了一个框架。
  • 2)我们的定量度量制定了DA技术的相似性和多样性度量。通过将我们的量化结果与DA方法的实际有效性进行比较,我们发现相似性和多样性的重要性在不同的数据集中有所不同。
  • 3)所提出的措施是在特征空间而不是原始像素空间中进行的,这有助于解释为什么一些视觉上无意义的数据增强方法仍然有效。
  • 4)虽然性能最好的DA方法在不同的数据集中有所不同,但我们的相似性-多样性平面表明,这些方法中的大多数都集中在一个特定的区域内,即“日期间隔”。该区间包括具有实现最佳性能的最高潜力的DA方法。
  • 5)我们的研究有可能更全面地了解DA方法背后的机制,并指导DA方法的设计和参数调整。此外,我们的研究可以为增强方法的有效性提供有效的初步验证,在大规模模型训练中节省计算资源和时间成本。

2. Related work

2.1. Basic data augmentation

数据扩充是一种广泛使用的提高DNN泛化能力的技术。传统的DA方法通过旋转、翻转、平移、随机裁剪等图像操作模拟真实场景数据来生成增强数据。例如,随机裁剪和水平翻转是训练深度模型最常用的数据增强。这些经典方法是获得高度广义深度模型的基础。

更先进的DA方法,如Mixup[15]和CutMix[21],将两个或多个图像或图像的子区域组合为一个。这些方法修改输入图像和标签以融合来自多个图像的信息,并可以通过提供不同的训练样本来提高模型的泛化能力。最近,研究人员强调了遮挡在模型泛化中的重要性,并提出了一些基于图像的方法,包括RandomErasing[22]、Cutout[8]、Hide-and-Seek(HaS)[24]和GridMask[6]。这些方法用一些特定的值代替训练样本中的随机补丁,可以降低模型的灵敏度,增加感知场,提高泛化性能。由于遮挡可能会引入分布偏移并去除图像中的一些关键区域,KeepAugment[23]在增强过程中使用显著性图来检测和保留关键区域。

数据扩充研究的另一个方向是将集成学习的力量与数据扩充结合起来[25-27]。基于集成的DA通常使用多个模型来指导或优化增强数据的生成。我们的工作可以应用于这种方法,以进一步优化和评估DA技术的选择和组合。

2.2. Automated data augmentation

此外,已经提出的自动数据增强,包括AutoAugment[3]、Fast AutoAugment[28]和AWS[29],它们基于一些度量(例如,训练模型的测试准确性)自动搜索增强策略。具体而言,AutoAugment[3]利用强化学习在各种图像数据集上找到DA操作的最佳组合的现有策略。RandAugment[4]利用网格搜索来选择并将增强变换的组合应用于训练图像,以提高模型的鲁棒性。Fast AutoAugment[28]的动机是训练数据集和测试数据集之间的密度匹配,并提出了一种仅用于推断的度量来评估数据增强。AWS[29]设计了一种基于增广的权重共享策略来搜索增广方法。这些自动数据扩充方法引入了评估数据扩充技术的概念,但这种评估是基于模型训练或通过使用测试集进行的,因此缺乏可解释性和实用性(因为测试集在实践中是看不见的)。相反,我们的工作旨在将数据增强方法的有效性分解为可解释的相似性和多样性度量,从而全面量化DA方法的有效度。

2.3. Evaluation of data augmentation

在各种DA方法中,这些方法有效性的机制尚不完全清楚。为了更好地了解DA对DNN性能的影响,最近的一项研究[16]首先提出了一项关于affinity and diversity的实证研究。affinity是在干净数据和增强验证集上测试的模型的准确性之间的差异。它可以被看作是由增广引起的分布变化的一种度量。具体而言,affinity定义如下:

𝑎 是一种增强方法,𝑚 是在原始训练集上训练的模型,D_{val}{D}'_{val} 分别是验证数据集和增强验证数据集。同时,他们提出了一种基于模型训练的多样性度量,即用给定DA方法训练的模型的最终训练损失,相对于在干净数据上训练的模型最终训练损失:

然而,确定affinity and diversity需要与确定最终测试精度相同的工作量,这在计算上是昂贵的。此外,评估DA方法的有效性仍然是通过评估深度模型的整个训练后的实际性能来间接完成的,这使得在实践中设计增强策略和调整参数时很难使用。与之前的研究相比,我们的方法只为每个数据集训练一次嵌入模型,将数据嵌入到特征空间中。所提出的措施基于距离措施,并且与模型训练无关,与上述研究相比,大大降低了GPU需求。因此,我们的方法在实践中可以毫不费力地使用。为了确保我们提出的指标的有效性,我们将与第4.6节中先前研究中提出的定量指标进行比较。

2.4. Optimal transport between datasets

最优传输(OT)是一种强大而有原则的方法,用于比较具有强大理论基础和理想计算特性的概率分布[17]。OT考虑两个概率测度,表示为𝛼 和𝛽 在空间P\left ( X \right )中. Kantorovich的OT问题[30]定义为:

𝑐(𝑥, 𝑦) 是一个成本函数,表示𝑥 和𝑦之间的距离。 \nu \left ( \alpha ,\beta \right ) 由联合分布M_{+}^{1}构成,M_{+}^{1}在空间X\times Y,带边距𝛼 和𝛽。

这个问题的最小化者被称为最优运输计划。由于在实践中很少知道这些测量,并且图像数据集包含有限的离散样本,𝛼 和𝛽 可以定义为离散度量\alpha = \sum _{i=1}^{n} a_{i} \delta _{x^{\left ( i \right )}}\beta = \sum _{i=1}^{m} b_{i} \delta _{y^{\left ( j \right )}}(这个公式应该错了吧?), 𝐚 和𝐛 是概率简化形式中的向量,\left \{ x^{\left ( i \right )} \right \} \in \chi\left \{ y^{\left ( j \right )} \right \} \in \chi, \delta _{x^{\left ( i \right )}}\delta _{y^{\left ( j \right )}}是位于点𝐱 和𝐲的质量为1的Dirac度量[31]。当用熵正则化项平滑经典最优传输问题时,熵正则化问题如下:

𝑐(𝑥, 𝑦) 是𝑥 和𝑦之间的成对成本, 𝜖 是正则化系数,H(𝜋 ∣ 𝛼 ⊗ 𝛽) = ∫ log(d𝜋∕d𝛼d𝛽)d𝜋 是相对熵。使用Sinkhorn算法[32]可以更快地解决熵正则化问题。

3. Method

在本节中,我们将全面介绍在相似性和多样性度量方面调查数据增强的有效性。复制我们方法的代码可在  地址  获得。

3.1. Similarity

值得注意的是,机器学习算法中的一个基本假设是训练和测试数据共享相同的分布和特征空间。因此,在训练集上训练的模型可以在测试集上很好地推广。理想情况下,最好的数据扩充方法应该生成一个扩充集,以尽可能接近测试集,这样可以实现更高的测试精度。

尽管测试集在训练过程中是看不见的,但增强数据可以深入了解测试集的分布,因为它们是独立且相同分布的。基于这一假设,在我们的工作中,我们提出了相似性度量来确定距离d\left ( D_{aug},D_{train} \right ), 哪里D_{aug}D_{train} 分别表示扩充的和原始的训练数据集。然而,已经观察到DA技术的视觉效果和实际性能不一致。视觉上无意义的数据增强方法,如GridMask,可以显著提高模型的性能。因此,我们在特征空间中而不是在原始图像空间中测量相似性和多样性。通过用干净的数据训练嵌入模型来获得图像数据的特征图,并使用最后一个完全连接层的输出作为特征图。我们将在消融研究中表明,嵌入模型的选择不会影响我们的主要结论。

为了简单起见,原始数据的形式如下:\left ( x,y \right ) \in D, 𝒙 表示图像数据的特征图,并且𝑦 对应于标签。数据集D从联合分布P\left ( \chi ,\gamma \right )中采样, D=\left \{ \left ( x,y \right ) \right \} \sim P\left ( \chi , \gamma \right )。 增强 扩充数据集和原始训练数据集的标签空间和特征空间的维度,它们分别表示为D_{aug}D_{train}。 因为前者是基于后者生成的。考虑到等式(3)中的问题。,我们将最优传输数据集距离定义为特征-标签对(𝒙, 𝑦) 和(𝒙′, 𝑦′) 之间的度量:

标签的距离d_{\gamma }\left ( y, {y}' \right )^{p} 在有监督的数据集中是关键的,但由于属于不同类别的数据之间存在相当大的可变性,因此难以量化。类间变化与类内变化的数量级不同。例如,哈士奇犬和金毛犬之间的分布可以被视为类内的差异,而热狗和狗之间的分类差异则是类间的差异。关于标签的唯一可用信息是相应的特征图。因此,我们定义了特征空间上的经验条件分布:C_{y}\left ( X \right ) = P\left ( X | Y = y \right ) 表示标签y的特征向量集, 然后X_{y}成为的有限样本集C_{y}\left ( X \right )。 这样,标签之间的距离就变成了分布之间的距离C_{y}\left ( X \right ), 可以通过𝑝-Wasserstein距离W_{p}^{p}\left ( C_{y} , {C}'_{​{y}'} \right )进行计算,等式(6)的离散计算公式如下:

数据集之间距离的计算可以通过使用OT实现,如下所示:

训练数据集D_{train}和增强后的数据集D_{aug}之间的相似程度由它们之间的OT距离反映。OT距离越小,表示它们之间的相似性越显著,导致所采用的DA方法的相似性度量接近0。在这种情况下,增强数据的分布与训练集的分布相似。基于训练和测试数据集共享相同分布的假设,具有更高相似性度量的增强数据集更有可能接近测试数据集,从而提高深度模型的性能。因此,所提出的DA方法的相似性度量在理论上与深度模型的最终泛化性能有关。

如果D_{aug}D_{train}相同,则所提出的相似性度量达到最大值零。然而,在数据扩充的情况下,较高的相似性值并不总是可取的,因为扩充数据的多样性是有限的。因此,一些具有高相似值的DA方法可能导致严重地过拟合。例如,如果DA方法只复制训练集,则会获得最大的相似值,而这样的训练集很容易导致过拟合,并阻碍模型的泛化性能。为了解决这一限制,我们提出了另一项措施,即多样性,以提高我们调查的可信度。

3.2. Diversity

受生物多样性和统计观点的启发,我们提出了一种考虑以下方面的多样性衡量标准。首先,正如生物多样性领域所确立的那样[20],多样性是衡量物种变化水平的指标。对于图像数据集,我们认为来自不同类别的图像中的信息是唯一的,并将多样性描述为类别之间的不相关。其次,仅使用图像中的有效成分来计算多样性[34]。从统计学的角度来看,随机变量的协方差与相关性成正比[35]。在PCA主成分分析中,特征向量𝐮 的协方差矩阵表示数据的主要方向,而相关的特征值𝜆 指示点沿着方向的变化。协方差矩阵的特征值和特征向量可以表征有效分量的不相关[35]。最后,由于视觉上多样化的增强数据可能与DA方法的有效性几乎没有相关性,我们使用与用于相似性测量的嵌入模型相同的嵌入模型来计算特征空间中的多样性。

允许A_{k} \in \mathbb{R}^{m \times n} 表示类𝑘的特征矩阵, 其中第𝑗th列a_{j} 是相应特征图第jth个输入图像数据。在这里𝑚 和𝑛分别 表示特征图的维度和类𝑘中的样本数。通过这种方式,我们将同一类的特征图公式化为随机变量,并使用相应协方差矩阵的特征值和特征向量来测量内在多样性。具体来说,让\mu = \frac{1}{n} \sum_{j}^{n} a_{j}表示样本平均向量。我们建立了经验协方差矩阵𝐒 归一化特征矩阵的如下:

特征向量u_{i} 表示有效样本的方向,以及相关的特征值\lambda _{i} 表示样本在该方向上的重要性。本质上\lambda _{i} 意味着数据在方向u_{i}上有更大的分布。 由于增强数据的多样性取决于原始训练数据的多样性,我们将来自给定类k的训练和增强数据相结合 创建{A}'_{k}A_{k} 表示来自类k的原始训练数据。 在测量多样性时,我们关注原始训练集和增强后数据与原始训练集之间的有效样本的不相关性,可以理解为d\left ( D_{train},D_{train+aug} \right )。 我们在A_{k}{A}'_{k}上执行特征分解 以获得u_{k}, \lambda _{k}{u}'_{k}, {\lambda}' _{k} 。我们按降序对特征值和相应的特征向量进行排序,并选择顶部 𝑡 个最大特征值和相关特征向量用于多样性分析。𝑡 的值如下:

数据集的主要信息包含在𝑡 个最大的特征值和相应的特征向量,而与较小特征值相对应的特征向量与噪声有关[19,36]。𝜃的值是依赖于数据集的,我们将评估的不同𝜃 值的影响并在消融实验中讨论𝜃的选择 。

𝐾 是类的总数,而|·|表示元素乘法。

值得注意的是,当增广集与训练集相同时,最小的分集值对应于增广集和训练集之间的最高相似度。然而,更高的多样性并不一定能保证更好的性能。例如,为狗类生成猫的图像会产生高多样性得分,但这些数据会损害性能。因此,我们不仅从多样性指标,而且从相似性和多样性指标来评估DA方法的有效性。

尽管这两项指标之间总体呈负相关,但任何一项指标都不足以衡量方法的有效性。这两个度量评估了DA方法的不同方面:相似性度量促进DA方法生成与原始训练集非常相似的增强数据,这有助于降低拟合不足的风险;多样性度量鼓励DA方法产生不同的增强样本,这有助于降低过拟合风险。这两个部分是研究DA方法有效性的补充工具。

4. Experiment

在本节中,我们在几个广泛使用的基准数据集上进行实验,以验证所提出的措施,包括MNIST、CIFAR-10、CIFAR-100和ImageNet。

4.1. Implementation details and experiment settings

为了获得各种增强的性能,我们密切遵循[4,8]中建议的训练设置,通过使用大量的DA技术来训练各种分类模型。具体而言,我们在ResNet-50和Wide-ResNet-28-10模型上训练CIFAR-10和CIFAR-100数据集,batch设置为128。所有模型都经过了200个epochs的随机梯度下降和动量训练。初始学习率设置为0.1。学习率从值0.1开始,在epochs为60、120和160时依次衰减20%。优化器使用交叉熵损失,𝑙2权重衰减0.0005。为了使用不同的数据增强方法获得ImageNet的分类精度,对ResNet-50模型进行112.6k步的训练,权重衰减为1e-4,批量大小为1024,学习率为0.2,在时期30、60和80衰减了10%。对于ImageNet,由于图像具有不同的大小,所以所有图像的大小也被调整为(224x224)。ImageNet上的一些分类精度结果来自[16]。此外,我们使用ImageNet训练集的缩减子集来计算相似性和多样性。通过将每个像素值除以255并通过数据集静态进行归一化来预处理所有图像。为了消除常用数据增强技术(如随机裁剪和水平翻转)的影响,除非有明确说明,否则我们将其排除在我们的实现之外。对于MNIST,我们使用ResNet-18作为嵌入模型。对于CIFAR-10、CIFAR-100和ImageNet,我们使用ResNet-50[38]作为嵌入模型。有关更详细的实施和实验设置,请参阅附录B和附录C。

4.2. Visualization results on MNIST dataset

为了仔细研究多样性度量和数据集分布之间的联系,我们给出了原始数据集和扩充数据集旋转角为20◦, 45◦, 和60◦的的嵌入结果,如图2第二行所示。嵌入结果表明,随着旋转角度的增加,增广数据集变得越来越复杂。具体而言,对于旋转角度为20◦ 和45◦, 每个聚类的分布与原始数据集的分布相似。然而,有了60◦ 旋转时,分布发生了显著的变化,一些簇甚至变得重叠。因此,增强数据集的分布显著偏离训练数据,这对模型训练产生了有害影响。因此,所提出的措施可以用作量化指标,以在相似性和多样性方面调整训练数据的分布。在接下来的章节中,通过实验,我们将详细展示如何使用相似性和多样性度量来表征和理解DA方法的有效性。

4.3. Investigate the effectiveness of augmentations

如图3所示,相似性和多样性度量成反比,与理论预期一致,其中较高的相似性往往获得较低的多样性,反之亦然。尽管存在负相关,但相似性和多样性都不能全面解释扩增的有效性。

如图4所示,实现不同数据集的最佳性能并不一定需要具有最高或最低相似性或多样性值的DA方法。相似性或多样性最高或最低的DA方法往往产生较差的性能,这意味着这两种测量中的任何一种都不能全面评估增强方法的功效。

虽然这三个数据集上表现最好的方法表现出不同的相似性-多样性特征,但我们观察到它们集中在相似性-差异平面的一个特定区域,称为“候选区间”。一般来说,使用ResNet-50作为嵌入模型,该区域的特征是相似性范围从大约-2.5到−1,多样性范围从800到900。

4.4. Accuracy with similarity or diversity

在本节中,我们进行了一个案例研究,以证明所提出的措施与扩增引入的变异程度一致。因此,所提出的度量可以定量地指示数据增强方法引入的变化程度,然后可以用来指导增强方法的参数调整。

因此,拟议的措施有可能被用作指标,以调整在相似性和多样性方面增加带来的变化程度。

4.5. Transfer learning

如图6所示,我们在相似性-多样性平面上展示了220种不同DA方法的转移测试精度。我们可以看到,我们提出的措施已经证明了在模型可转移性方面研究DA方法有效性的卓越能力。例如,与图3(b)中的结果相比,CIFAR-100上的测试精度和CIFAR-10上的转移测试精度具有相似的趋势。同时,表现较好的DA方法主要集中在高多样性区域,这表明用高多样性DA方法训练的模型具有更强的特征提取能力。因此,在CIFAR-100上,优选实现相对高分集测量的增强。通过迁移学习,我们进一步证明了所提出的措施在评估DA方法有效性方面的有效性。

4.6. Comparison with other measures

4.7. The similarity between the augmented set and test set

4.8. Ablation study

4.8.1. The effect of the embedding models

与图3(c)中所示的结果类似,在图9(b)中,ImageNet的最佳DA方法也集中在相似性和多样性相对较高的区域。

4.8.2. The effect of the parameter 𝜃

如第3.2节中等式(15)所述,参数𝜃 确定所选择的特征值和相应的特征向量的数量。在这里,我们研究参数𝜃 在CIFAR-10 DA方法多样性的影响,量化𝜃 值包括20%、40%、60%和80%。结果图3(a)所示,𝜃 = 40%。

如图10所示,增加的值𝜃 导致不同数据增强方法之间的多样性度量的变化减小。什么时候𝜃 如果设置为较小的值,如20%,则由于保留了不足的特征向量,多样性度量不能完全捕获数据集中的关键信息。相反,当𝜃 超过60%,多样性度量未能捕捉到各种数据增强方法之间的多样性差异,因为它考虑了与小特征值相关的信息,这些信息对增强数据的多样性贡献不大。因此,我们选择𝜃 = 40%作为CIFAR-10的最佳值。

5. Discussion and future work

在这项工作中,我们提出了两种模型训练不可知的定量措施,可以有效地研究DA方法的性能。这些措施旨在揭示在没有大规模模型训练的情况下成功DA方法的关键因素。我们的研究表明,不同的数据集对DA方法有不同的相似性和多样性偏好,DA方法的有效性源于增广数据的相似性与多样性。先前关于数据扩充的研究通常明确地关注其中一种措施,而隐含地考虑另一种措施。例如,Cutout、HaS和GridMask通过掩蔽原始图像中的子区域和通过掩蔽区域的变化增加多样性来确保增强数据的相似性。为了增强多样性,自动数据增强使用各种增强的组合,这些增强涉及微小的变化以保持相似性。我们的研究结果强调了平衡相似性和多样性对设计有效DA方法的重要性。所提出的相似性和多样性度量可以明确地捕捉这些特性的调整。此外,我们观察到高精度增强往往集中在相似性-多样性平面的特定区域。“基线区间”中的增广更有可能实现高精度,这通过将给定方法的参数调整到“基线区间“内来为未来增广的设计提供信息。除了优势之外,还应该提到我们的方法的局限性。

5.1. 数据集复杂性对数据扩充方法的影响

虽然所提出的指标直接反映了DA方法的有效性,但我们认为数据集复杂性在决定DA方法的偏好方面起着至关重要的作用。然而,数据集复杂性很难量化,因为它涉及多个因素,如数据集大小、类别数量、每个类别的样本量、噪声、标签质量等。我们的方法试图通过相似性和多样性度量来分解数据集复杂性。这两项措施是以对抗的方式进行的,两者对于全面评估都是必不可少的。因此,未来的工作应该进一步分析数据集复杂性对DA方法的影响。

5.2. 相似性和多样性值的范围

虽然我们的工作已经在各种基准数据集中证明了其有效性,但重要的是要强调,某些特定数据集(如医学MRI图像)的相似性和差异性值范围可能会有所不同。这可能导致“candidate interval”不一致。这种潜在的限制可以通过参考附录F中的统一度量来减轻,该度量根据经验利用现有的DA方法来自适应地确定候选区间的近似范围。通过这种方法,我们旨在通过更广泛地了解不同数据集场景中的预期度量值,将限制的影响降至最低。未来,基于相似性和多样性度量,我们将探索开发一种更稳健的统一度量来评估DA方法的有效性。

5.3. 多样性度量中的样本量

在多样性度量的计算中,每个类别中的样本量显著影响主成分分析的结果[48]。具体来说,特征图A_{i},其大小为𝑚 × 𝑛, 𝑚 是类的总数,并且𝑛 是每个类别中的样本总数。我们定义样本abundance s_{a} = \frac{n}{m} , 这突出了每个类别中样本的abundance。确定的适当值s_{a} 具有挑战性,但对PCA至关重要。只有少数研究关注主成分分析的样本量[49,50]。此外,[51,52]等研究的经验证据表明,最小样本量应大于变量数量的五倍,建议的下限为5 s_{a}. 因此,当每个类别的样本量非常小时,多样性度量的有效性受到限制。这一限制意味着我们的方法可能不适用于以每个类别的最小样本为特征的场景。因此,未来的工作可以更深入地研究数据增强技术的评估,特别是在较小样本数据集上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值