(python数据分析与挖掘实战笔记)
脏数据包括:缺失值、异常值、不一致的值
一、异常值分析
- 简单统计量分析(最大值、最小值...)
- 3
原则(数据服从正态分布)
- 远离平均值多少倍标准差(数据不服从正态分布)
- 箱型图分析(四分位数)
二、数据预处理
数据清洗、数据集成、数据变换、数据规约
(1)数据清洗
主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据、处理缺失值、异常值等。
1.处理缺失值的方法:
- 删除存在缺失值的记录
- 对可能值进行插补
- 不处理