label-preserving transformations

最新推荐文章于 2025-05-16 10:01:29 发布

碧寒

最新推荐文章于 2025-05-16 10:01:29 发布

阅读量331

点赞数

文章标签：经验分享

本文链接：https://blog.youkuaiyun.com/qq_39324954/article/details/133794627

版权

文章探讨了两种减少过拟合的数据增强方法：一是通过label-preserving的图像变换，如随机裁剪和水平翻转；二是利用PCA改变RGB通道强度。CrossNorm则强调跨领域和任务的泛化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

label-preserving transformations,这是一种减少过拟合的方式。也就是在不影响图像标签的前提下，对图片进行变换，以达到数据增强的目的。通过这种方式增大我们的数据集，来减少过拟合。

两种数据增强方式：

1第一种数据增强方式包括产生图像变换和水平翻转。

从256×256图像上通过随机提取224 × 224的图像块实现了这种方式，然后在这些提取的图像块上进行训练。这通过一个2048因子增大了我们的训练集，尽管最终的训练样本是高度相关的。没有这个方案，我们的网络会有大量的过拟合，这会迫使我们使用更小的网络。在测试时，网络会提取5个224 × 224的图像块（四个角上的图像块和中心的图像块）和它们的水平翻转（因此总共10个图像块）进行预测，然后对网络在10个图像块上的softmax层进行平均。

2第二种数据增强方式包括改变训练图像的RGB通道的强度。

具体地，我们在整个ImageNet训练集上对RGB像素值集合执行PCA。对于每幅训练图像，我们加上多倍找到的主成分，大小成正比的对应特征值乘以一个随机变量，随机变量通过均值为0，标准差为0.1的高斯分布得到。这个方案近似抓住了自然图像的一个重要特性，即光照的颜色和强度发生变化时，目标身份是不变的。

Data augmentation是训练深度模型的重要工具。目前流行的Data augmentation技术要么是label-preserving，要么是label-perturbing。label-preserving方法通常依赖于特定领域的图像语义，例如旋转和颜色，这使得它们不适合视觉领域以外的任务。label-perturbing技术主要用于分类，在更广泛的领域可能会有问题。CrossNorm作为一种Data augmentation方法，很容易应用于不同的领域(CV和NLP)和任务(分类和分割)。CrossNorm的目的不同于以往的许多Data augmentation方法，CrossNorm的目的是促进外分布泛化。