目录
一、背景【教学赛】金融数据分析赛题1:银行客户认购产品预测-天池大赛-阿里云天池
1. 目标变量类别分布查看目标变量(是否购买银行产品)的类别分布:
一、背景【教学赛】金融数据分析赛题1:银行客户认购产品预测-天池大赛-阿里云天池
本赛题以银行产品认购预测为背景,旨在预测客户是否会购买银行的产品。在与客户沟通的过程中,记录了联系次数、上一次联系时长和时间间隔,同时在银行系统中保存了客户的基本信息,包括年龄、职业、婚姻状况、是否违约以及是否有房贷等。此外还统计了当前市场的情况,例如就业和消费信息以及银行同业拆借利率等。
二、数据探索
1. 目标变量类别分布
查看目标变量(是否购买银行产品)的类别分布:
no: 19548
yes: 2952
可以看出目标变量的类别分布存在失衡情况,yes类别的样本数量较少。
2. 分箱展示时长变量
对时长(duration)变量进行分箱并展示其分布:
可以看出时长对目标变量有一定的区分能力,时长较短的样本更有可能购买银行产品。
3. 数据分布和相关性分析
分离数值变量和分类变量,并分别查看其在训练集和测试集上的分布情况。还对分类变量进行了Label Encoding处理。
通过相关性矩阵热力图可以观察到一些与目标变量相关性较高的特征,在模型的特征输出中也占据了重要的位置。
4. 其他变量的可视化展示
展示了其他一些变量在样本为yes的情况下的分布情况。
三、数据建模
没有进行特征工程,直接使用原始数据进行建模。
1. 划分训练集和测试集
将数据集划分为训练集和测试集,比例为