基于头脑风暴优化的包装式特征选择算法
1. 引言
在当今信息爆炸的时代,许多实际应用在获取和存储信息的能力不断增强的同时,涉及的属性(特征)也越来越多。然而,这些特征中很多是无关或冗余的,因为决策者很难提前确定哪些特征是有用的。特征选择(FS)的目标是从原始特征集中选择一个特征子集,该子集应足以描述目标概念。
现有的特征选择方法大致可分为三类:过滤式、包装式和混合式。过滤式方法根据一系列标准计算特征的排名来选择关键特征,计算效率高;包装式方法则预先确定一个学习算法,并通过所选特征子集对其进行评估,通常在大多数情况下表现更好;混合式方法主要研究过滤式和包装式方法的结合。
近年来,受自然启发的算法在寻找最优特征子集方面受到了广泛关注,如遗传算法(GA)、差分进化、蚁群优化(ACO)、蜂群优化(BCO)、萤火虫算法、粒子群优化(PSO)等。而头脑风暴优化算法(BSO)是一种较新的受自然启发的算法,基于人类的集体行为开发而来,已应用于风速预测、股票价格预测等问题,但尚未系统地应用于特征选择问题。
本文旨在研究一种基于BSO的包装式特征选择算法,以寻找最优特征子集。为此,引入了基于选择概率的实数编码策略,将二进制特征选择问题转化为连续优化问题,并提出了基于连续BSO的特征选择算法(CBSOFS),最后对该算法进行测试并与其他算法进行比较。
2. 相关工作
2.1 特征选择
考虑一个包含K个样本和D个特征的数据集S,特征选择问题可描述为:从所有特征中选择d个特征(d ≤ D),以优化指定的函数H(·),如分类准确率。在特征选择问题中,采用二进制字符串对解决方案进行编码:
Z = (z1, z2,
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



