数据挖掘之数据归约

最新推荐文章于 2025-09-25 21:37:33 发布

原创

最新推荐文章于 2025-09-25 21:37:33 发布 · 1w 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #数据 #数据归约 #特征选择 #特征提取

数据归约在大型数据挖掘项目中至关重要，通过维归约、特征选择和值归约等手段，可以提升计算效率、保证挖掘精度。特征选择尤其关键，包括特征排列、子集选择等方法，旨在剔除冗余和非相关特征，提高模型性能。常用技术如PCA、Relief算法等在降低维度的同时保持数据集质量。

                    
                        
                    
                    对于真正意义上的大型数据集，在应用数据挖掘技术之前，还需要执行一个中间的、额外的步骤—数据归约，虽然大型数据集可能得到最佳的挖掘结果，但是未必能获得比小型数据集更好的数据挖掘结果， 
 2.维归约，主要问题是不降低成果质量的前提下，可否舍弃一些已准备和已预处理的数据 
 3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题，在实践中，特征的数量可达到数百个之多，如果只有上百条样本可用于分析，就需要进行恰当的维归约，以挖掘出可靠的模型或使其具有实用性，，另一方面，由高纬度引起的数据超负，会使一些数据挖掘算法不可用，唯一的方法是再进行维归约 
 4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量（平整特征） 
 在准备数据挖掘时，要执行标准的数据归约操作，需要分析一下参数：A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述 
 5.数据归约算法的推荐特性 
 可测性 
 应用已归约的数据集可精确的确定近似结果的质量 
 可识别性 
 在应用数据挖掘程序之前，数据归约算法运行期间，很容易确定近似结果的质量 
 单一性 
 算法往往是迭代的，计算结果的质量是时间和输入数据质量的一个非递减的函数 
 一致性 
 计算结果的质量和计算时间及输入数据质量有关 
 收益递减 
 方案在计算的早期能获得大的改进，但随时间递减 
 可中断性 
 算法可以随时停止，并给出答案 
 优先权 
 算法可以暂停并以最小的开销重新开始 
 6.特征归约 
 高维数据可能包含许多不相关的干扰信息，显著降低了数据挖掘过程的性能，甚至一流的数据挖掘算法也不能处理大量弱相关特征和冗余特征，通常归因于“维数灾”或者因为非相关特征降低了信噪比，另外，维数非常高时，许多算法都无法执行 
 数据质量和已归约数据集性能的改善，不仅与干扰数据和污染数据有关，也与非相关、相关、冗余数据有关，收集具备响应特征的数据通常不仅仅用于数据挖掘，因此，仅处理相关特征可以提高效率，基本上，应选择与数据挖掘应用相关的特征，以获得最佳性能，且测量和处理的工作量最小，特征归约处理的结果是:更少的数据，以便数据挖掘算法更快的学习、更高的数据挖掘

                

最低0.47元/天解锁文章