利用动态优化实现有效的流式进化特征选择
1. 引言
特征选择在数据挖掘和机器学习中是一项关键任务,特别是在处理高维数据集时。传统特征选择方法耗时较长,且要求在学习过程开始时所有输入特征都可用。然而,在大数据时代的许多实际应用中,需要处理随时间出现的属性流,这就催生了流式特征选择(SFS)的新挑战。
SFS 具有两个特性:一是特征数量可能随时间无限增长;二是特征逐个流动,每个特征到达时都需在线处理。目前,与传统特征选择方法相比,针对 SFS 的研究较少,因为 SFS 需要新的、快速且经济的方法。
为解决 SFS 问题,本文提出一种新方法,即引入动态优化来选择最佳属性。具体是将 WD2O 动态优化算法与在线流式特征选择算法(OSFS)相结合,提出动态在线流式特征选择(DOSFS)的混合方法,该方法具有以下特点:
- 结合了 OSFS 的速度和 WD2O 的自适应性,能在任何时间提供高质量属性,并有效探索冗余特征空间。
- 能挖掘出之前被视为无用数据的相关信息,有助于未来的决策制定。
- 增强了 OSFS 算法的探索能力,填补其不足。
2. 背景和相关工作
2.1 分类特征选择
分类是数据挖掘和机器学习中最常见的任务,目的是确定新实例所属的类别。许多实际分类问题需要监督学习,但相关特征往往事先未知,因此会使用大量候选特征,这导致存在无关和冗余属性,使决策算法复杂、低效、泛化性差且难以解释。减少这些特征可显著缩短学习算法的运行时间,提高分类器效率。
特征选择技术是降低特征空间维度的最佳方法之一,通常可分为过滤法、包装法和嵌入法三类。
超级会员免费看
订阅专栏 解锁全文
619

被折叠的 条评论
为什么被折叠?



