数据分析与挖掘2——数据预处理

1.缺失值处理

  1. 查看缺失值
train_data.info()#可以查看特征的确实情况

import missingno as msno
msno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况
msno.bar(train_data)#条形图显示缺失值情况

在这里插入图片描述
在这里插入图片描述

  1. 删除:适用于数据量较大(记录较多)且缺失比较较小的情形,去掉后对总体影响不大。
  • 缺失值较少,删除包含缺失值的行,train_data.dropna()
  • 删除缺失值大于80%的列,train_data.dropna(thresh=len(data)*0.2, axis=1)
  • 某一列缺失严重,删除某列,train_data.drop(['V0','V1'],axis=1,inplace=True)
  • 丢弃某几列有缺失的行,train_data.dropna(axis=0, subset=['a','b'], inplace=True)
    其中,axis=1表示行,inplace=True表示替换掉原始数据
  1. 填充:缺失值填充之前,先了解缺失的变量含义。
  • 平均值适用于近似正态分布数据,观测值较为均匀散布均值周围;
  • 中位数适用于偏态分布或者有离群点数据,中位数是更好地代表数据中心趋势;
  • 众数一般用于类别变量,无大小、先后顺序之分。
from scipy import stats
# 均值填充
data['col'] = data['col'].fillna(data['col'].means())
# 中位数填充
data['c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrs.King_UP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值