在数据预处理过程中,空值的处理主要有以下三种处理方式:
- 删除记录:当原始数据量大,空值数据所占比例较小,对结果影响不大时,可以对其进行丢弃处理。
- 插值:当原始数量较少,直接删除空值会造成样本量不足,可能会改变变量的原有分布。此时,可以利用现有变量的信息,对空值进行填补。
- 不处理
Note:有时对于异常值,也会先将其置为空值,然后根据情况使用以下方法处理。
可以使用多种处理方法:
-
data.describe( ):删除记录
describe() 函数可以查看数据的基本情况,包括:count 非空值数、mean 平均值、std 标准差、max 最大值、min 最小值、(25%、50%、75%)分位数等。
len(data) 是数据的记录数
STEP1:统计数据中空值的记录数为:
explore=data.describe().T #转置后方便查阅
explore['null']=len(data)-explore['count'] #空值的记录数=总记录数-非空值记录数
得到了数