数据清理--数据挖掘必须保证数据完整,一致

本文介绍了数据清理的基本方法,包括处理缺失值、平滑噪声数据和识别离群点等步骤。探讨了多种填补缺失值的技术,如使用全局常量、属性平均值、同类样本平均值等,并介绍了几种平滑噪声数据的方法,如分箱、回归和聚类等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据清理试图填充缺失的值,光滑噪声并识别离群点

一. 缺失值  解决办法

1.忽略元组(缺失较多属性)

2.人工填写缺失值(费时)

3.使用一个全局常量填充缺失值(方法简单,但并不可靠)

4.使用属性的均值填充缺失值

5.使用与给定元组属同一类的所有样本的属性均值

6.使用最可能的值填充

二.噪声(是被测量的变量的随机误差)光滑数据方法

1.分箱(binning):通过考擦数据的近邻来光滑有序数据的值(用箱均值光滑、用箱中位数光滑、用箱边界光滑)

2.回归:可以用一个函数你和数据来光滑数据

3.聚类:可以通过聚类检测离群点,将类似的值组织成群活簇

4.概念分成:把连续值映射为几个类

三.偏差检测---数据清理的第一步

1.元数据检测(数据库约束)

2.编码问题

3.数据表示不一致(日期格式)

4.字段过载(新属性的定义挤压到已有属性未使用的部分)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值