风控比赛第二弹

最新推荐文章于 2024-06-05 20:24:02 发布

vitacode

最新推荐文章于 2024-06-05 20:24:02 发布

阅读量227

点赞数

分类专栏：金融风控数据挖掘文章标签：机器学习人工智能数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45996005/article/details/108663662

版权

金融风控数据挖掘专栏收录该内容

5 篇文章

订阅专栏

1.数据分析是结构化数据建模前的重要部分，但是这一部分之前很少做，一直是暴力学习，把所有的特征全部扔到模型当中。

2.df.info()查看基本数据类型，df.describe()查看数据的基本描述。数据的缺失也是一个重要的信息，df.isnull.any(),显示某一列是否存在缺失值，df.isnull.sum(),显示每列缺失的个数。数据可视化查看数据缺失的情况，如果确实不严重对于catboost,lgb模型无需处理。确实过多考虑直接删除。

3.对于数据的类型大体可分为（结构化数据）object和数值类型，对于数值类型分箱往往能取到不错效果尤其是对分布差别较大的数据，能够消除部分噪音，提升模型的稳定性，数据挖掘比赛中常见赛题数据已被分箱。对于类别数据另一个要注意的是类别之间的差异，是无差的还是具有大小优劣关系。存在大家关系的数据可以考虑编码为有序编码。

4.对于数值型数据值得一提的是数据的分布需要考虑，这一点在鱼佬的第一次直播中有所涉及，暂时还没看后面补上。

5.以上都是从值上分析，适当的使用可视化将有利于深入理解，这一点比如数据透视表的使用。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。