1 不平衡样本对模型的影响
数据存在不平衡,则预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。
LR分类平面:
分类概率分布:
2 基于数据的方法
2.1 随机过采样和欠采样
定义
最简单的处理不平衡数据的方法是随机采样,一般分过采样和欠采样。
过采样定义:过采样是从少数类样本集中随机重复抽取样本(有放回)已得到更多样本;
欠采样定义:从多数类样本集中随机选取较少的样本(有放回或无放回);
存在的问题
- 由于复制少数类,过采样会增加模型训练的复杂度,容易过拟合;
- 欠采样会丢失一些信息,另外采样的样本可能有偏;
2.2 基于聚类的过采样
如果正负样本中存在子类,子类之间也存在不平衡问题,随机过采样只解决了正负类的不平衡, 但未解决子类间的不平衡。
聚类过采样算法:
#1 对少数类和多数类进行聚类:
多数类聚类
1. 聚类 1:150 个观察