提升特征选择稳定性与高效并行数据流分类方法
在数据挖掘领域,特征选择的稳定性以及数据流分类的高效性一直是研究的重点。本文将为大家介绍两种创新的方法,一是通过结合实例和特征加权提高特征选择稳定性的方法,二是基于K近邻(KNN)的并行数据流分类方法。
结合实例和特征加权提升特征选择稳定性
在特征选择过程中,数据集中往往存在许多无关或冗余的特征,特别是在高维生物医学数据(如基因表达微阵列数据)中,特征选择偏差问题尤为严重。为了解决这些问题,研究人员提出了SimbaLIW方法。
数据集描述
研究使用了多个数据集,其主要特征如下表所示:
| 问题 | 特征数量 | 类别数量 | 实例数量 |
| — | — | — | — |
| Ionosphere | 34 | 2 | 351 |
| Mammogram | 65 | 2 | 86 |
| Musk | 166 | 2 | 476 |
| SPECTF | 44 | 2 | 267 |
| Breast cancer | 24481 | 2 | 97 |
| GCM | 16063 | 14 | 190 |
| Leukemia | 7129 | 2 | 72 |
| Lung cancer | 12533 | 2 | 181 |
其中,前四个问题的数据来自UCI,后四个是微阵列问题。对于微阵列数据,会基于组间与组内平方和的比率进行初步的基因选择,为每个数据集保留前200个基因。
实验设置
为避免特征选择偏差,采用了精心设计的重采样方法。每个实验包含