数据化运营常见的数据预处理经验

本文深入探讨数据清洗中的关键步骤,包括处理缺失值、异常值和重复值的方法。详细讲解了数据列缺失的两种常见情况及解决方案,如直接删除、统计法补全和模型法预测等,为提升数据质量提供实用指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

      数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。

 

  数据列缺失,

      1.行记录缺失,数据丢失(通常无法找回)

     2.数据列值缺失

----------------------------------------------------

  这里主要说明数据列缺失处理

     1.丢弃:  直接删除行记录

          a.但是以下方式不适用,缺失行记录比例较大,例如超过百分之10。

          b.缺失记录存在明显的数据分布特征,比如集中在某几类或者一类

   2.补全:相对丢弃 补全更常用,

         a.统计法,对于数值型,适用均值,加权均值,中位数等方法补全,对于分类型,采用类别众多的补全

         b.模型法 ,基于已有字段,对于缺失字段进行预测,  数值变量 进行回归模型补全,分类变量,分类模型补全

   

 

 

 

 

文章来源-宋天龙.《Python数据分析与数据化运营》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值