数据预处理:使用Hive,Scipy 和 data.describe( )处理缺失值的方法

该博客探讨了数据预处理时如何处理缺失值,提供了删除记录和插值两种方法。使用data.describe()可以了解数据概况并决定处理方式;在Hive中通过统计空值记录数来选择删除策略;而Scipy则可以采用拉格朗日法进行插值填充缺失值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在数据预处理过程中,空值的处理主要有以下三种处理方式:

  1. 删除记录:当原始数据量大,空值数据所占比例较小,对结果影响不大时,可以对其进行丢弃处理。
  2. 插值:当原始数量较少,直接删除空值会造成样本量不足,可能会改变变量的原有分布。此时,可以利用现有变量的信息,对空值进行填补。
  3. 不处理

Note:有时对于异常值,也会先将其置为空值,然后根据情况使用以下方法处理。

可以使用多种处理方法:

  • data.describe( ):删除记录

       describe() 函数可以查看数据的基本情况,包括:count 非空值数、mean 平均值、std 标准差、max 最大值、min 最小值、(25%、50%、75%)分位数等。

       len(data) 是数据的记录数

STEP1:统计数据中空值的记录数为:

explore=data.describe().T    #转置后方便查阅
explore['null']=len(data)-explore['count']   #空值的记录数=总记录数-非空值记录数

得到了数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值