机器学习项目之数据清洗

本文详细介绍了数据清洗的常见方法,包括缺失值处理(删除、填充)、格式内容清洗、重复值处理、不一致数据处理、错误数据处理、离群点和异常值处理。提供了相应的Python代码示例,如缺失值的前向和后向插补、使用均值和众数填充、删除高杠杆点和强影响点等。强调在处理不一致数据时需结合业务逻辑,对于错误数据和离群点则视情况进行删除或填充。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

数据清洗是机器学习项目中最为琐碎而又繁重的工作之一,下面总结一些经常用到的数据清洗方法与Python实现,以探索能否用更加自动化的手段来简化数据清洗工作。

包括:

1.缺失值处理

2.格式内容清洗

3.重复值处理

4.不一致数据处理

5.错误数据处理

6.离群点处理

7.高杠杆点处理

8.强影响点处理

 

1 缺失值

缺失值是最常见的数据问题之一,按缺失比例,我们大致可以将数据的缺失分为两种情况:

1)严重缺失

      这种情况首先尝试从其他渠道获取缺失的数据;

      或尝试从其他数据中间接获取缺失的数据;

      如果实在无法获取,只好删除该条数据;

2)少量缺失

      当缺失数据不重要且数据量较大,删除该数据没有太大影响时,可以直接删除;

      否则应当采取填充的方式处理缺失值,填充方法有以下几种:

             a.人工填充:当数据量较小时,可以人工根据业务经验填充缺失值

             b.全局变量填充:将缺失的数据值用常量或“unknown”等标记填写,但需要注意的是当用“unknown”时,算法会把“unknown”也当做一种数据特征,除非在业务中数据的缺失代表某种实际意义,否则很少采用这种填充方式

             c.使用中心度量填充:如均值或中位数,对于正态分布的数据可以采用均值填充,偏态数据可以用中位数填充,可以采用全量数据的中心度量值,也可以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值