高效分类的特征与元组同步选择方法
在当今数据爆炸的时代,数据量正以惊人的速度增长。随着互联网的普及,数据来源变得极为广泛,数据在维度(特征)和实例(元组)两方面都不断增加。然而,并非所有数据都与我们的任务相关。在收集特定方面的数据时,人们通常会尽可能多地收集信息,可能并未明确考虑具体任务,如分类任务。对于数据挖掘专家来说,在进行分类之前,去除噪声、无关和冗余数据至关重要,因为许多传统算法在存在这类数据时会失效。
特征与元组选择的重要性
特征选择和元组选择有助于分类器聚焦,从而在不进行这些选择的情况下,实现相似甚至更好的分类准确率。尽管特征选择和元组选择在机器学习、数据挖掘等多个研究领域已有研究,但它们很少被同时研究。本文提出了一种新颖的距离度量方法,用于选择最具代表性的特征和元组,并在多个微阵列基因表达数据集、UCI机器学习和KDD数据集上进行了实验,结果表明该方法显著优于现有方法。
相关工作
- 特征选择 :特征选择旨在选择特征子集,以提高预测准确率或减少特征数量,同时不显著降低仅使用所选特征构建的分类器的预测准确率。特征选择方法可大致分为包装器和过滤器两类。包装器方法使用分类器作为评估函数来评估和比较候选特征子集,计算成本较高;过滤器方法则独立于最终分类器进行特征子集评估,依赖于训练数据的一般特征,如距离、信息、依赖性和一致性。
- 元组选择 :元组选择的目的是找到信息丰富且具有代表性的元组,以辅助学习任务。主要原因包括减少计算时间、降低标记成本和提高学习算法的效率。元组选择方法可分为嵌入式、包装器和过滤器三类。
超级会员免费看
订阅专栏 解锁全文
1667

被折叠的 条评论
为什么被折叠?



