[中奖]第九届“泰迪杯”挑战赛A题

数据挖掘挑战赛:样本不平衡下的特征选择与模型优化
本文探讨了在数据挖掘比赛中,面对样本严重不均衡的财务造假预测任务,如何通过 NullImportances 方法进行特征选择,以及如何调整模型策略如使用互信息、树模型权重和SMOTE来改善模型性能。作者分享了针对不同行业数据(无造假与有造假)的特征重要性计算策略和模型融合技巧,包括制造业与非制造业的案例分析。
问题概述

题目1如下:

在这里插入图片描述

赛题有2个点,分别是:

  • 确定数据指标

    即确定哪些特征是决定财务造假与否的关键特征

  • 预测造假公司

    训练模型,然后跑测试数据即可

预处理
  • 首先使用missingno2,对全局数据进行观测,看一看缺失值等情况

  • 然后删去无用的特征列

  • 删去缺失值占比过多的特征列

  • 使用pd.interpolate()3对缺失值占比较小的特征列进行补充,也可以参考45

第一题

最开始的想法是直接跑树模型,然后看看谁的权重大就选谁,然而问题出在样本比例上。

  • 首先对整体来看,正样本的数量远远大于负样本。不均衡的情况下,树模型虽然有所缓解,但估计还是够呛

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值