ML之CatBoost:金融风控之通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为

本文详细介绍了如何利用CatBoost算法预测车险欺诈行为,涉及数据预处理(中位数填充、同分布校验、日期拆解、平均数编码等),模型训练以及运用Shap和LIME进行模型可解释性分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ML之CatBoost:金融风控之通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为

目录

车险是否为欺诈行为案例简介

背景

字段说明

通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为

# 1、定义数据集

# 1.1、分离特征与标签

# 1.2、直接删除不必要入模字段

# 1.3、划分数据类型【数字型】、【类别型】

# 2、特征工程:数据分析与处理

# 2.1、统计目标变量比例,查看缺失值、重复值

# 2.2、【数字型】缺失值填充:鉴于平均值易受极值影响,数值变量用中位数填充

# 2.3、异常值箱线图可视化

# 2.4、相关性热图可视化

# 2.5、分布可视化:校验是否同分布,训练集与测试集数据分布

# 2.5.1、【数字型】分布对比可视化

# 2.5.2、【类别型】分布对比可视化

# 2.6、文本型日期字段拆解提取年月日

# 2.6、特征编码:  编码时测试集也要一起做特征处理

# 2.6.1、平均数编码: 有监督性,适合10个以上的多分类变量

# 2.6.2、其余分类特征执行标签编码

# 3、模型预测

# 3.1、类别特征全部确保str化

# 3.2、划分训练及测试集

# 3.3、模型训练

# 4、模型可解释性

# 4.1、整体分析

# T1、模型特征重要性本身输出

# T2、shap归因分析

# 4.2、单个特征与目标变量之间的关系图

# 4.3、单个样本分析

# T1、shap力图可视化

# T2、 LIME局部可解释模型不可知解释

实现代码


相关文章
ML之CatBoost:金融风控之通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值