金融风控-Task3-特征工程

zyq_go

于 2020-09-21 22:54:21 发布

阅读量541

点赞数

分类专栏：日常学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43041009/article/details/108720823

版权

本文探讨了金融风控中的特征工程，包括数据分箱、特征交互和特征选择。数据分箱旨在降低变量复杂性，处理缺失值和异常值，提高模型稳定性。特征交互通过创建新特征增强模型表达力，而特征选择则旨在减少无用特征，提升模型效率。在处理缺失值时，提出了删除元组、数据填充和不处理的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
首先有一个疑问，关于特征工程部分，是否需要把上面的方法都处理一遍，比如对于有些优秀的树模型对数据处理的要求就相对比较少，所以还是建议先把后续建模阶段的要求理清楚再针对性下手比较好。

这里主要写自己目前在研究的几个点：

1、数据分箱

特征分箱的目的：
从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。
数据分桶的对象：
（1）将连续变量离散化
（2）将多状态的离散变量合并成少状态
分箱的原因：
数据的特征内的值跨度可能比较大，对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响，其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱，然后使用量化后的结果。
分箱的优点：
（1）处理缺失值：当数据源可能存在缺失值，此时可以把null单独作为一个分箱。
（2）处理异常值：当数据中存在离群点时，可以把其通过分箱离散化处理，从而提高变量的鲁棒性（抗干扰能力）。例如，age若出现200这种异常值，可分入“age > 60”这个分箱里，排除影响。
（3）业务解释性：我们习惯

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。