Datawhale 零基础入门数据挖掘-Task2 数据分析

1.首先导入库,读取文件并观察数据的shape
在这里插入图片描述
2.分别查看训练集和测试集的前五行数据简单观察一下即可
在这里插入图片描述
2.查看训练集和测试集的数据缺失情况,可以看到训练集和测试集的“bodyType”、“fuelType”、“gearbox”存在缺失
在这里插入图片描述
在这里插入图片描述
4.查看各特征的取值范围,检查有无异常值。可以发现“notRepairedDamage”值存在"-",可判断为其为缺失的另一种形式,故将其替换为nan,并在后续的缺失值填充时处理该变量
在这里插入图片描述
5.可以发现“seller”“offerType”两类别分类严重倾斜,可近似于只有一种类别,对预测值基本没有影响,故将其删去
在这里插入图片描述
6.价格分布不平衡,存在个别极大的值与均值差距较大,故将价格做对数变换,使其近似为正态分布

7.将nan填充为-1,快速进行特征工程完成一个基本的baseline。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值