13、高效分类的特征与元组同步选择方法

高效分类的特征与元组同步选择方法

在当今数据爆炸的时代,数据量正以惊人的速度增长。随着互联网的普及,数据来源变得极为广泛,数据在维度(特征)和实例(元组)两方面都不断增加。然而,并非所有数据都与我们的任务相关。在收集特定方面的数据时,人们通常会尽可能多地收集信息,可能并未明确考虑具体任务,如分类任务。对于数据挖掘专家来说,在进行分类之前,去除噪声、无关和冗余数据至关重要,因为许多传统算法在存在这类数据时会失效。

特征与元组选择的重要性

特征选择和元组选择有助于分类器聚焦,从而在不进行这些选择的情况下,实现相似甚至更好的分类准确率。尽管特征选择和元组选择在机器学习、数据挖掘等多个研究领域已有研究,但它们很少被同时研究。本文提出了一种新颖的距离度量方法,用于选择最具代表性的特征和元组,并在多个微阵列基因表达数据集、UCI机器学习和KDD数据集上进行了实验,结果表明该方法显著优于现有方法。

相关工作
  • 特征选择 :特征选择旨在选择特征子集,以提高预测准确率或减少特征数量,同时不显著降低仅使用所选特征构建的分类器的预测准确率。特征选择方法可大致分为包装器和过滤器两类。包装器方法使用分类器作为评估函数来评估和比较候选特征子集,计算成本较高;过滤器方法则独立于最终分类器进行特征子集评估,依赖于训练数据的一般特征,如距离、信息、依赖性和一致性。
  • 元组选择 :元组选择的目的是找到信息丰富且具有代表性的元组,以辅助学习任务。主要原因包括减少计算时间、降低标记成本和提高学习算法的效率。元组选择方法可分为嵌入式、包装器和过滤器三类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值