摘要
在构建更紧凑高效的模型中,选择重要特征是数据挖掘(data mining)领域的一项重要的数据预处理任务(data pre-processing task)。粗糙超立方体方法是一种新兴技术,可用于消除不相关和冗余特征,特别是近似数值分类(approximate numerical classification)中的不准确性问题(inexactness problem)上。
通过融合基于元启发式的进化搜索技术,本文提出了一种新的数值特征全局搜索方法,这种方法基于粗糙超立方体方法和二进制粒子群优化(BPSO)算法,即RH-BPSO。为了进一步减轻处理大规模数据时的高计算成本问题,我们提出了通过水平数据分区(horizontal data partitioning)分解和重组超立方体等价划分矩阵(hypercuboid equivalence partition matrix)来计算混合特征评分标准(hyprid feature evaluation criteria)的并行化方法(parallelization approach)。我们开发了一个分布式元启发式优化的粗糙超立方体特征选择算法(DiRH-BPSO)算法,并将其嵌入到Apache Spark云计算模型中。广泛的实验结果表明RH-BPSO具有前景,能够在分类精确性、所选特征子集的基数以及执行效率方面显著超越其他代表性特征选择算法。此外,分布式内存多核集群(distributed-memory multicore clusters)上的实验表明 DiRH-BPSO 显著快于其顺序(sequential)方法,并且完全有能力快速完成大规模特征选择任务,这是单个节点由于内存限制而无法完成的任务。并行伸缩性和扩展性分析(parallel scalability and extensibility analysis)也表明 DiRH-BPSO 能够随着计算节点和数据量的增长而良好地扩展和延伸。
相关概念
Rough Hypercuboid Approach 粗糙超立方体方法
粗糙超立方体用于特征选择的概念在之前的博客中已基本提及,本文献在这方面写得更加简洁清晰。分别给出了如下定义:
- 超立方体等价划分矩阵
;
- 混淆向量
;
- 上下近似
、
,特征
关于决策特征集
的依赖度
;
- 多特征的超立方体等价划分矩阵
;
- 特征
关于特征集合