- 对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果,
2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据
3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可用于分析,就需要进行恰当的维归约,以挖掘出可靠的模型或使其具有实用性,,另一方面,由高纬度引起的数据超负,会使一些数据挖掘算法不可用,唯一的方法是再进行维归约
4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量(平整特征)
在准备数据挖掘时,要执行标准的数据归约操作,需要分析一下参数:A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述
5.数据归约算法的推荐特性
可测性
应用已归约的数据集可精确的确定近似结果的质量
可识别性
在应用数据挖掘程序之前,数据归约算法运行期间,很容易确定近似结果的质量
单一性
算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
一致性
计算结果的质量和计算时间及输入数据质量有关
收益递减
方案在计算的早期能获得大的改进,但随时间递减
可中断性
算法可以随时停止,并给出答案
优先权
算法可以暂停并以最小的开销重新开始
6.特征归约
高维数据可能包含许多不相关的干扰信息,显著降低了数据挖掘过程的性能,甚至一流的数据挖掘算法也不能处理大量弱相关特征和冗余特征,通常归因于“维数灾”或者因为非相关特征降低了信噪比,另外,维数非常高时,许多算法都无法执行
数据质量和已归约数据集性能的改善,不仅与干扰数据和污染数据有关,也与非相关、相关、冗余数据有关,收集具备响应特征的数据通常不仅仅用于数据挖掘,因此,仅处理相关特征可以提高效率,基本上,应选择与数据挖掘应用相关的特征,以获得最佳性能,且测量和处理的工作量最小,特征归约处理的结果是:更少的数据,以便数据挖掘算法更快的学习、更高的数据挖掘