风控比赛第二弹

1.数据分析是结构化数据建模前的重要部分,但是这一部分之前很少做,一直是暴力学习,把所有的特征全部扔到模型当中。

2.df.info()查看基本数据类型,df.describe()查看数据的基本描述。数据的缺失也是一个重要的信息,df.isnull.any(),显示某一列是否存在缺失值,df.isnull.sum(),显示每列缺失的个数。数据可视化查看数据缺失的情况,如果确实不严重对于catboost,lgb模型无需处理。确实过多考虑直接删除。

3.对于数据的类型大体可分为(结构化数据)object和数值类型,对于数值类型分箱往往能取到不错效果尤其是对分布差别较大的数据,能够消除部分噪音,提升模型的稳定性,数据挖掘比赛中常见赛题数据已被分箱。对于类别数据另一个要注意的是类别之间的差异,是无差的还是具有大小优劣关系。存在大家关系的数据可以考虑编码为有序编码。

4.对于数值型数据值得一提的是数据的分布需要考虑,这一点在鱼佬的第一次直播中有所涉及,暂时还没看后面补上。

5.以上都是从值上分析,适当的使用可视化将有利于深入理解,这一点比如数据透视表的使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值