数据预处理
为什么要进行预处理
现实世界的数据很“脏”
-
不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据
如, occupation=“ ”
来源于:收集数据时,在不同的阶段具有不同的考虑;人/硬件/软件的问题等。 -
含噪声的: 包含错误或存在孤立点
如, Salary=“-10”
来源于:收集阶段;数据传输阶段等。 -
不一致的: 在名称或代码之间存在着差异
如, Age=“42” Birthday=“03/07/1997”
如, 原来排序 “1,2,3”, 现在排序 “A, B, C”
来源于:不同的数据源;功能依赖冲突。
数据预处理的主要任务
-
数据清洗(Data cleaning)
填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题 -
数据集成(Data integration)
对多个数据库,数据立方或文件进行集成 -
数据变换(Data transformation)
规范化与聚集(Normalization and aggregation) -
数据约简(Data reduction)
得到数据集的压缩表示,它小的多,但能够产生同样的(或几乎同样的)分析结果 -
数据离散化(Data discretization&