目录
1.赛题介绍
本次教学赛是陈博士发起的数据分析系列赛事第2场 —— 保险反欺诈预测
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。
2.赛题背景
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
2.1赛题任务
数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为
字段 | 说明 |
---|---|
policy_id | 保险编号 |
age | 年龄 |
customer_months | 成为客户的时长,以月为单位 |
policy_bind_date | 保险绑定日期 |
policy_state | 上保险所在地区 |
policy_csl | 组合单一限制Combined Single Limit |
policy_deductable | 保险扣除额 |
policy_annual_premium | 每年的保费 |
umbrella_limit | 保险责任上限 |
insured_zip | 被保人邮编 |
insured_sex | 被保人姓名:FEMALE或者MALE |
insured_education_level | 被保人学历 |
insured_occupation | 被保人职业 |
insured_hobbies | 被保人兴趣爱好 |
insured_relationship | 被保人关系 |
capital-gains | 资本收益 |
capital-loss | 资本损失 |
incident_date | 出险日期 |
incident_type | 出险类型 |
collision_type | 碰撞类型 |
incident_severity | 事故严重程度 |
authorities_contacted | 联系了当地的哪个机构 |
incident_state | 出事所在的省份,已脱敏 |
incident_city | 出事所在的城市,已脱敏 |
incident_hour_of_the_day | 出事所在的小时(一天24小时的哪个时间) |
number_of_vehicles_involved | 涉及的车辆数 |
property_damage | 是否有财产损失 |
bodily_injuries |