数据挖掘之数据归约

数据归约在大型数据挖掘项目中至关重要,通过维归约、特征选择和值归约等手段,可以提升计算效率、保证挖掘精度。特征选择尤其关键,包括特征排列、子集选择等方法,旨在剔除冗余和非相关特征,提高模型性能。常用技术如PCA、Relief算法等在降低维度的同时保持数据集质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果,
    2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据
    3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可用于分析,就需要进行恰当的维归约,以挖掘出可靠的模型或使其具有实用性,,另一方面,由高纬度引起的数据超负,会使一些数据挖掘算法不可用,唯一的方法是再进行维归约
    4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量(平整特征)
    在准备数据挖掘时,要执行标准的数据归约操作,需要分析一下参数:A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述
    5.数据归约算法的推荐特性
    可测性
    应用已归约的数据集可精确的确定近似结果的质量
    可识别性
    在应用数据挖掘程序之前,数据归约算法运行期间,很容易确定近似结果的质量
    单一性
    算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
    一致性
    计算结果的质量和计算时间及输入数据质量有关
    收益递减
    方案在计算的早期能获得大的改进,但随时间递减
    可中断性
    算法可以随时停止,并给出答案
    优先权
    算法可以暂停并以最小的开销重新开始
    6.特征归约
    高维数据可能包含许多不相关的干扰信息,显著降低了数据挖掘过程的性能,甚至一流的数据挖掘算法也不能处理大量弱相关特征和冗余特征,通常归因于“维数灾”或者因为非相关特征降低了信噪比,另外,维数非常高时,许多算法都无法执行
    数据质量和已归约数据集性能的改善,不仅与干扰数据和污染数据有关,也与非相关、相关、冗余数据有关,收集具备响应特征的数据通常不仅仅用于数据挖掘,因此,仅处理相关特征可以提高效率,基本上,应选择与数据挖掘应用相关的特征,以获得最佳性能,且测量和处理的工作量最小,特征归约处理的结果是:更少的数据,以便数据挖掘算法更快的学习、更高的数据挖掘
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值