处理数据极度不均衡的数据集2

最新推荐文章于 2024-02-05 18:22:35 发布

原创最新推荐文章于 2024-02-05 18:22:35 发布 · 1.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文通过使用Python中的imblearn库解决严重样本不平衡问题，介绍了如何通过随机抽取正负样本并结合不同模型（如逻辑斯谛回归、岭回归及lgm模型）进行训练与调优的过程。

实现过程个人觉得很坎坷。

下午找到了sklearn库中有个 imblearn包，可以无脑运算，基于完成任务考虑，看了之后确实有很多收货。

更加熟悉了模型的原理，数据处理的过程和结果优化的一些理论。

排除朴素随机抽样之外的其他方法，在增加小样本和删除大样本的时候，时间消耗过于巨大，对于讲求效率的我而言，理论的优越并不能是我信服imblearn的优越性。

在面对几十万条数据的时候，确实感到了个人计算机的无力。

既然是大数据，还是要想大数据框架来靠拢的。

接下来说具体思路：

参考着巨人的理论，是否可以通过人为制造随机数据和随机采样来进行算法的优化。

基本的正样本个数为：706610，负样本个数为：3293

看到这么感人的比例，我还能多说什么呢，还是自己操作吧。

首先随机抽取训练集（axis=0）按行来抽取。并将正负样本集分开。

然后随机选择正样本的数量，并将负样本链接到对应的正样本之后

然后进行训练和调试，终于摆脱了召回率和F2值为0的尴尬情况。

然后按照基本的逻辑斯谛回归，岭回归，lgm模型进行了测试。

结果依次是：逻辑斯的回归F2值在0.50-0.65之间；

岭回归在0.55-0.72之间，但是数据波动范围比逻辑斯的回归大一些；

接下来就是我信赖的lgm模型了，不出我所料范围在0.75-0.85之间，但是在样本3W，循环迭代次数多的情况下稳定在0.79这个范围。

最后，就是漫长的等待生成结果了，17W的测试数据还是挺恶心的，现在等了40分钟了还没结束，继续等吧。

最后推荐两篇博客：

https://blog.youkuaiyun.com/u011094454/article/details/77618604

用Python进行数据挖掘（数据预处理）

https://blog.youkuaiyun.com/zutsoft/article/details/51498026

【pandas】[3] DataFrame 数据合并，连接（merge,join,concat)

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。