金融数据分析赛题2:保险反欺诈预测(天池学习赛)

目录

1.赛题介绍

 2.赛题背景

2.1赛题任务

3.详细代码

3.1 导入包

3.2进行数据清洗和探索

3.3初始化代码

 3.4对包含?符号的进行处理

3.5查看日期

3.6数据集切分和模型训练

3.7测评分数

3.8绘制饼形图

 3.9保存文件

4.赛项总结

4.1赛项背景与意义

4.2赛项内容与过程

4.3总结自己的学习成果




1.赛题介绍

本次教学赛是陈博士发起的数据分析系列赛事第2场 —— 保险反欺诈预测

赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。

 2.赛题背景

赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

2.1赛题任务

数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为

字段 说明
policy_id 保险编号
age 年龄
customer_months 成为客户的时长,以月为单位
policy_bind_date 保险绑定日期
policy_state 上保险所在地区
policy_csl 组合单一限制Combined Single Limit
policy_deductable 保险扣除额
policy_annual_premium 每年的保费
umbrella_limit 保险责任上限
insured_zip 被保人邮编
insured_sex 被保人姓名:FEMALE或者MALE
insured_education_level 被保人学历
insured_occupation 被保人职业
insured_hobbies 被保人兴趣爱好
insured_relationship 被保人关系
capital-gains 资本收益
capital-loss 资本损失
incident_date 出险日期
incident_type 出险类型
collision_type 碰撞类型
incident_severity 事故严重程度
authorities_contacted 联系了当地的哪个机构
incident_state 出事所在的省份,已脱敏
incident_city 出事所在的城市,已脱敏
incident_hour_of_the_day 出事所在的小时(一天24小时的哪个时间)
number_of_vehicles_involved 涉及的车辆数
property_damage 是否有财产损失
bodily_injuries
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值