1. 什么是样本不平衡问题?
所谓的样本不平衡问题指的是数据集中各个类别的样本数量不均衡。以二分类问题为例,通常情况下把样本类别比例超过4:1的数据就可以称为不平衡数据,极端情况下正负样本比例有可能达到1:1000。
2. 如何解决样本不平衡问题
1. 数据重采样
数据重采样方法是指对训练数据进行重新采样,从而让各个类别数量接近,具体分为过采样和欠采样两种思路。最简单的过采样方法是对小类别的样本进行重复随机采样,补充到小类别当中,直到小类别样本数据量增大到符合要求为止(当然另一个更直接的方法是复制小类别样本,重复到加到原有数据集中得到新的数据集)。与过采样方法相反,欠采样对大类别的样本进行随机删减,直到规模与小类别相近为止。但过采样技术有可能会导致 overfitting 而降采样会丢失一部分训练信息。
2. 更改评价指标
在类别不平衡问题中,accuracy 往往有很大的迷惑性,参考意义不大。我们可以采用其他的评价标准:
- precision: 所有"正确被检索的结果(TP)"占所有"实际被检索到的(TP+FP)"的比例, P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP