[文献阅读]Large-Scale Meta-Heuristic Feature Selection Based on BPSO Assisted Rough Hypercuboid Approach

本文提出了一种结合粗糙超立方体方法与BPSO的特征选择算法RH-BPSO,用于解决数值分类中的不准确性问题。通过水平数据分区和并行计算,作者开发了分布式算法DiRH-BPSO,实现在ApacheSpark上的高效执行,显著提升分类精度和执行效率,适用于大规模特征选择任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

在构建更紧凑高效的模型中,选择重要特征是数据挖掘(data mining)领域的一项重要的数据预处理任务(data pre-processing task)。粗糙超立方体方法是一种新兴技术,可用于消除不相关和冗余特征,特别是近似数值分类(approximate numerical classification)中的不准确性问题(inexactness problem)上。

通过融合基于元启发式的进化搜索技术,本文提出了一种新的数值特征全局搜索方法,这种方法基于粗糙超立方体方法和二进制粒子群优化(BPSO)算法,即RH-BPSO。为了进一步减轻处理大规模数据时的高计算成本问题,我们提出了通过水平数据分区(horizontal data partitioning)分解和重组超立方体等价划分矩阵(hypercuboid equivalence partition matrix)来计算混合特征评分标准(hyprid feature evaluation criteria)并行化方法(parallelization approach)。我们开发了一个分布式元启发式优化的粗糙超立方体特征选择算法(DiRH-BPSO)算法,并将其嵌入到Apache Spark云计算模型中。广泛的实验结果表明RH-BPSO具有前景,能够在分类精确性、所选特征子集的基数以及执行效率方面显著超越其他代表性特征选择算法。此外,分布式内存多核集群(distributed-memory multicore clusters)上的实验表明 DiRH-BPSO 显著快于其顺序(sequential)方法,并且完全有能力快速完成大规模特征选择任务,这是单个节点由于内存限制而无法完成的任务。并行伸缩性和扩展性分析(parallel scalability and extensibility analysis)也表明 DiRH-BPSO 能够随着计算节点和数据量的增长而良好地扩展和延伸。

相关概念
Rough Hypercuboid Approach 粗糙超立方体方法

粗糙超立方体用于特征选择的概念在之前的博客中已基本提及,本文献在这方面写得更加简洁清晰。分别给出了如下定义:

  1. 超立方体等价划分矩阵H(A_k)
  2. 混淆向量V(A_k)
  3. 上下近似\overline{A}(\beta_i)\underline{A}(\beta_i),特征A_k关于决策特征集D的依赖度\gamma_{A_k}(D)
  4. 多特征的超立方体等价划分矩阵H(\{A_k,A_l\})
  5. 特征A_k关于特征集合
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值