3.1 为什么需要预处理
数据
不完整,含噪声,不一致
数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。
脏数据形成的原因
滥用缩写词
数据输入错误
数据中的内嵌控制信息
不同的惯用语(如:ASAP对“at firstchance”)
重复记录
丢失值
拼写变化
不同的计量单位
过时的编码
数据清理的重要性
- 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
- 垃圾进、垃圾出
数据清理处理内容
格式标准化
异常数据清除
错误纠正
重复数据的清除
数据规约
数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果
主要策略:
数据聚集
维规约
数据压缩
数据规约
3.2 数据清理
空缺值
忽略元组
人工填写空缺值
使用固定值
使用属性平均值
使用最有可能值
噪声数据
如何平滑数据,去掉噪声
数据平滑技术
分箱
聚类
计算机和人工检查相结合
回归
分箱
箱的深度:表示不同的箱里有相同个数的数据。
箱的宽度:每个箱值的取值区间是个常数。
平滑方法:
按箱平均值平滑
按箱中值平滑
按箱边界值平滑
聚类
每个簇中的数据用其中心值代替
忽略孤立点
计算机和人工检查相结合
先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。
人工再审查这些孤立点
回归
通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。
线形回归
多线形回归
3.3 数据集成和变换
数据集成
将多个数据源中的数据结合起来存放在一个一致的数据存贮中。
实体识别 实体和模式的匹配
冗余:某个属性可以由别的属性推出。
相关分析
相关性rA,B .
rA,B>0,正相关。A随B的值得增大而增大
rA,B=0,无关。AB无关
rA,B<0,负相关。A随B的值得增大而减少
重复 同一数据存储多次
数据值冲突的检测和处理
数据变换
平滑
聚集
数据概化
规范化
属性构造(特征构造)
最小 最大规范化
小数定标规范化
属性构造: 由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解
数据规约
数据立方体聚集
寻找感兴趣的维度进行再聚集
维规约
删除不相关的属性(维)来减少数据量。
属性子集选择
找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布
如何选取?
贪心算法
逐步向前选择
逐步后向删除
向前选择和后向删除相结合
判定树归纳
数据压缩
有损,无损
小波变换
将数据向量D转换成为数值上不同的小波系数的向量D’.
对D’进行剪裁,保留小波系数最强的部分。
数据压缩cont.
主要成分分析
数值规约
回归和对数线形模型
线形回归
对数线形模型
直方图
• 等宽
• 等深
• V-最优
• maxDiff
数值规约cont
聚类
多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。
选样
• 简单选择n个样本,不放回
• 简单选择n个样本,放回
• 聚类选样
• 分层选样
离散化和概念分层
离散化技术用来减少给定连续属性的个数
通常是递归的。
大量时间花在排序上。
对于给定的数值属性,概念分层定义了该属性的一个离散化的值。
数值数据离散化和概念分层生成
分箱
直方图分析
聚类分析
基于熵的离散化
通过自然划分分段 3-4-5规则
• 如果一个区间最高有效位上包括3 6 9 个不同的值,划分为3个等宽区间。7个不同值,按2-3-2划分为3个区间
• 最高位包含2,4,8个不同值,划分为4个等宽区间
• 最高位包含1 ,5,10个不同值,划分为5个等宽区间
• 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
分类数据的概念分层的生成
分类数据是离散数据。一个分类属性可能有有限个不同的值。
方法
• 由用户和专家在模式级显式的说明属性的部分序
• 通过显式的数据分组说明分层结构的一部分
• 说明属性集,但不说明他们的偏序
• 只说明部分的属性集