场景描述
在机器学习中,绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习
和无监督学习
),然而在实际应用中经常会遇到训练数据不足的问题。比如图像分类
,作为计算机视觉最基本的任务之一,其目标是将每幅图像划分到指定类别集合中的一个或多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?
知识点:迁移学习
(Transfer Learning)、生成对抗网络
、图像处理
、上采样技术
、数据扩充
问题:在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
分析与解答
一个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息; 二是在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息。当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要想保证模型的效果,就需要更多先验信息。先验信息可以作用在模型上,例如让模型采用特定的内在结构、条件假设或添加其他一些约束条件;先验信息也可以直接施加在数据集上,即根据特定的先验假设去调整、变换或扩展训练数据,让其展现出更多的、更有用的信息,以利于后续模型的训练和学习。
具体到图像分类任务上,训练