金融数据分析赛题2：保险反欺诈预测(天池学习赛)

原创

已于 2024-06-19 09:08:36 修改 · 1.4k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#金融 #大数据

于 2024-06-18 17:00:30 首次发布

目录

2.1赛题任务

3.2进行数据清洗和探索

3.3初始化代码

3.4对包含？符号的进行处理

3.5查看日期

3.6数据集切分和模型训练

3.7测评分数

3.8绘制饼形图

3.9保存文件

4.1赛项背景与意义

4.2赛项内容与过程

4.3总结自己的学习成果

1.赛题介绍

本次教学赛是陈博士发起的数据分析系列赛事第2场 —— 保险反欺诈预测

赛题以保险风控为背景，保险是重要的金融体系，对社会发展，民生保障起到重要作用。保险欺诈近些年层出不穷，在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来，因此我们鼓励所有选手，基于赛题发表notebook分享，内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

2.赛题背景

赛题以保险风控为背景，保险是重要的金融体系，对社会发展，民生保障起到重要作用。保险欺诈近些年层出不穷，在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

2.1赛题任务

数据集提供了之前客户索赔的车险数据，希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO：预测用户的车险是否为欺诈行为

字段	说明
policy_id	保险编号
age	年龄
customer_months	成为客户的时长，以月为单位
policy_bind_date	保险绑定日期
policy_state	上保险所在地区
policy_csl	组合单一限制Combined Single Limit
policy_deductable	保险扣除额
policy_annual_premium	每年的保费
umbrella_limit	保险责任上限
insured_zip	被保人邮编
insured_sex	被保人姓名：FEMALE或者MALE
insured_education_level	被保人学历
insured_occupation	被保人职业
insured_hobbies	被保人兴趣爱好
insured_relationship	被保人关系
capital-gains	资本收益
capital-loss	资本损失
incident_date	出险日期
incident_type	出险类型
collision_type	碰撞类型
incident_severity	事故严重程度
authorities_contacted	联系了当地的哪个机构
incident_state	出事所在的省份，已脱敏
incident_city	出事所在的城市，已脱敏
incident_hour_of_the_day	出事所在的小时（一天24小时的哪个时间）
number_of_vehicles_involved	涉及的车辆数
property_damage	是否有财产损失
bodily_injuries	身体伤害

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。