如何处理数据不平衡问题?

0 引言

我们在处理实际业务时,经常会遇到训练数据中不同类别样本比例差距过大的情况。例如银行贷款业务欺诈问题,我们要清楚银行贷款业务主要识别的就是具有一定风险的贷款客户,而实际样本中,大多数都是及时偿还的正样本,只有少数是未偿还的负样本,如果我们不做任何预处理,模型很可能因为正样本数量多,而把很多风险客户识别成正常客户,造成损失。所以首先要明确具体业务的根本要求。下面是我总结的解决办法,有什么问题希望大家指正,谢谢。

1 解决办法

下面负样本代表样本量少的类型,正样本代表样本量大的类型。
1)过采样和降采样
从字面就可以很好理解,过采样就是在负样本数量很少,几百或者几千的情况下,对负样本进行SMOTE处理,增加到一定的预定数量。
降采样就是在负样本数量达到模型的预计标准,几万或者几十万以上,而正样本在几百万以上,则选择对正样本进行随机抽样的方式,降低到一定的预定数量,平衡数据集。
2)使用不同的训练集,构建多个模型进行融合
例如负样本个数5000,正样本个数100000,将正样本随机抽取50000个,并且分成10等份,负样本与每一份正样本组成1:1的10个训练集,训练10个模型进行融合。

2 模型评估

对于不平衡数据集,训练的模型使用准确率评估模型,容易出现较大的问题。例如10000个样本中100个负样本9900个正样本,模型一个负样本没有识别出来,所有的样本都识别为正样本,准确率却为99%,所以根据业务需求,可以分别识别不同类别的样本识别准确率,或者使用F1值来评估模型。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值