小样本学习:小训练集下分类器的比较
在现实世界的机器学习任务中,我们常常会遇到小训练集的问题,而且训练集的类别分布往往与目标分布不匹配。本文旨在比较多种学习模型在小训练集的二元文本分类任务基准测试中的性能,为研究者和从业者在选择模型和特征选择方法时提供指导。
1. 动机与范围
研究的动机主要有以下四点:
1. 信息检索 :构建高级搜索界面时,用户筛选搜索结果的过程中,需要实时训练分类器对剩余结果进行排序。在训练数据少且类别分布严重偏斜的情况下,应选择何种学习模型来提供最高的精度?
2. 半监督学习 :从小训练集学习时,利用未标记示例是很自然的想法。但初始分类器的选择不当会污染训练集,那么哪种学习模型最适合作为初始分类器呢?
3. 现实世界的训练集 :在许多实际项目中,训练集需要逐步构建。当类别众多时,训练示例较少的阶段会很长。那么在训练数据很少的情况下,哪些方法最有效呢?
4. 元知识 :在每个新的分类任务中测试所有学习模型是低效的。我们需要研究为从业者提供指导,指出在哪些情况下哪些模型最合适。而且在训练数据短缺时,交叉验证进行模型选择可能不合适,容易导致过拟合。
为了提供这样的指导,我们在数百个二元文本分类任务的基准测试中比较了多种学习模型的性能。这些任务来自不同的基准数据库,如路透社、TREC和OHSUMED。我们关注小训练集和测试分布中阳性样本比例较小的任务,探索整个学习表面,独立改变训练集中阳性和阴性样本的数量。
我们评估的学习模型是四种流行的学习算法(支持向量机