摘要
论文探索并比较了多种解决方案用来解决图像分类中的数据增强问题,旨在研究数据扩充的有效性。它将通过使用传统数据扩充技术(比如裁剪、旋转)或者现代意义上讲得GAN(CycleGAN),还提出了一种通过神经网络学习改进分类器的增强的方法,称之为神经增强。
前言
深度学习和机器学习的有效性离不开数据,神经网络可以从数据中获益,基于文本的模型因谷歌语料库的发布而受益。作者认为对于如此庞大的非结构化数据集,任务变成了在大量的非结构化数据找到结构化的模式,对有结构化的数据集进行扩充是一种可行的方法。接着,介绍了图像和视频分类任务数据量的缺乏性原因,探索图像分类任务中的数据增强技术。最后,作者介绍了他们将要进行的实验数据集。如MNIST、和小图像数据。简单介绍了实验步骤,传统数据增强方法,CycleGAN, neural net.
相关工作
数据集样本量少不能很好地拟合真实数据的情况,训练模型运用小样本数据集会出现过拟合的问题,这一节回顾了一些常用的防止过度拟合的方法。介绍了增加正则化项(l1,l2正则化)、dropout、批量归一化(batch normalization) 和迁移学习等方法。此外,作者给出了数据增强技术的简单描述,如几何或色彩增强。(主要是仿射变换)。以及如何训练GAN的基本描述。
实验方法
作者将采取两种不同的方法。
a)在训练分类器之前进行数据扩充(使用GAN或仿射变换)
传统数据增强:对于每个输入图像,我们生成一个“复制”图像,移动、放大/缩小、旋转、翻转、扭曲或,有色调的图像,把原始图像和经过仿射变换的图像都输入到神经网络中,大小为N的数据集扩充一倍到2N。<