5、提升特征选择稳定性与高效并行数据流分类方法

提升特征选择稳定性与高效并行数据流分类方法

在数据挖掘领域,特征选择的稳定性以及数据流分类的高效性一直是研究的重点。本文将为大家介绍两种创新的方法,一是通过结合实例和特征加权提高特征选择稳定性的方法,二是基于K近邻(KNN)的并行数据流分类方法。

结合实例和特征加权提升特征选择稳定性

在特征选择过程中,数据集中往往存在许多无关或冗余的特征,特别是在高维生物医学数据(如基因表达微阵列数据)中,特征选择偏差问题尤为严重。为了解决这些问题,研究人员提出了SimbaLIW方法。

数据集描述

研究使用了多个数据集,其主要特征如下表所示:
| 问题 | 特征数量 | 类别数量 | 实例数量 |
| — | — | — | — |
| Ionosphere | 34 | 2 | 351 |
| Mammogram | 65 | 2 | 86 |
| Musk | 166 | 2 | 476 |
| SPECTF | 44 | 2 | 267 |
| Breast cancer | 24481 | 2 | 97 |
| GCM | 16063 | 14 | 190 |
| Leukemia | 7129 | 2 | 72 |
| Lung cancer | 12533 | 2 | 181 |

其中,前四个问题的数据来自UCI,后四个是微阵列问题。对于微阵列数据,会基于组间与组内平方和的比率进行初步的基因选择,为每个数据集保留前200个基因。

实验设置

为避免特征选择偏差,采用了精心设计的重采样方法。每个实验包含

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值