在不平衡样本上建模

1 不平衡样本对模型的影响

数据存在不平衡,则预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。

LR分类平面:

分类概率分布:

2 基于数据的方法

2.1 随机过采样和欠采样

定义

最简单的处理不平衡数据的方法是随机采样,一般分过采样和欠采样。

过采样定义:过采样是从少数类样本集中随机重复抽取样本(有放回)已得到更多样本;

欠采样定义:从多数类样本集中随机选取较少的样本(有放回或无放回);

存在的问题

- 由于复制少数类,过采样会增加模型训练的复杂度,容易过拟合;

- 欠采样会丢失一些信息,另外采样的样本可能有偏;

 

2.2 基于聚类的过采样

如果正负样本中存在子类,子类之间也存在不平衡问题,随机过采样只解决了正负类的不平衡, 但未解决子类间的不平衡。

聚类过采样算法:

#1 对少数类和多数类进行聚类:

多数类聚类

1. 聚类 1:150 个观察

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值