基于实例和特征加权组合的特征选择稳定性提升技术
在数据处理和机器学习领域,特征子集选择(FSS)是一个重要的问题。随着新应用领域的出现和特征数量的增加,FSS 变得愈发关键。本文将介绍一种通过实例和特征加权组合来提高特征子集选择稳定性的技术,并对其进行详细解析。
1. 特征子集选择问题概述
特征子集选择问题已经被统计和机器学习社区研究多年。近年来,由于新应用领域的引入和特征数量的增长,FSS 成为了热门话题。在许多实际问题中,如分子分类、基因组学、DNA 微阵列和蛋白质组学等,往往存在特征众多但观测数据有限的情况。
模型的稳定性对于其可信度至关重要。在典型的 FSS 过程中,使用交叉验证时,不同的验证折叠通常会选择不同的特征。特别是在贪心包装器顺序 FSS 中,分类准确性是一个依赖于训练子样本的随机变量。早期步骤中不同的特征选择可能会完全改变搜索路径,导致选择出截然不同的特征集。当目标不仅是追求高准确性,还包括进行推理时,稳定性尤为关键,因为领域专家往往对那些因训练数据的微小变化而发生显著改变的特征缺乏信心。
2. 相关概念和算法
- 实例的边际概念 :实例相对于假设(分类规则)的边际衡量了分类器在进行预测时的置信度。有两种定义实例边际的方法:
- 样本边际 :实例 x 相对于假设的样本边际是 x 与假设所诱导的决策边界之间的距离。
- 假设边际 :实例 x 的假设边际是假设与为 x 分配替代标签的最接近假设之间的距离。
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



