第二章 数据预处理
a.数据清理脏数据
填充缺失值 使用缺省值、平均值、最可能的值【贝叶斯 决策树等】
光滑噪声 封箱【箱均值 箱边界】 回归 聚类
识别离群点
【原则】唯一性原则 连续性原则 空值原则
b.数据集成
合并多个数据源的数据 解决一致性 模式集成 对象匹配 实体识别问题
冗余:通过相关分析 检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【PearsonProduct coefficient】
大于零 则正相关 等于零 独立 小于零 负相关
对于离散数据 也可以通过卡方检验发现
属性上检测冗余 同时元组tuple上也要查重
数据值冲突的检测和处理 重量单位等等
c。数据变换
光滑【封箱 回归 聚类】
聚集 数据变成数据立方体
数据泛化:年龄--》青年中年老年
规范化:按比例缩放 最小-最大 规范化 z-score规范化【减平均值除以方差】 按小数定标规范化【小数点左移最大的绝对值的位数】
属性构造:构造新的属性并添加进去
d。数据归约
数据立方体聚集