不平衡数据重采样与特征选择方法在高维数据中的应用及无线 sEMG 采集与监测综述
1. 不平衡数据重采样与特征选择
在现实世界中,许多问题都面临着数据不平衡的情况,即数据集中各类别的分布存在偏差。当分类类别数量差异较大时,例如某一类样本极少(少数类),而另一类样本极多(多数类),这种不平衡性会导致预测算法偏向多数类,影响分类算法的性能。通过应用重采样算法和平衡数据,可以解决这一问题。研究表明,除了重采样技术,使用特征选择方法也能显著提高性能。
1.1 重采样方法
常见的重采样技术有随机欠采样(RUS)、随机过采样(ROS)、合成少数过采样技术(SMOTE)、自适应合成采样(ADASYN)等。本文采用随机欠采样技术,该算法随机选择与少数类实例数量相等的多数类实例,以平衡类分布,但随机消除实例可能会丢失重要信息。
1.2 特征选择
特征选择是高维数据处理中的重要技术,用于去除无关和冗余数据,降低数据维度。常见的特征选择技术包括信息增益、随机森林选择器、Lasso 回归、前向特征选择、后向特征选择以及前后向特征选择的组合。
- 信息增益 :这是一种基于过滤法的特征选择技术,用于衡量自变量为因变量提供的信息量。对于数值型因变量,需要创建分箱。信息增益的计算公式为:信息增益 =(分裂前分布的熵) - (分裂后分布的熵)。
- 前向逐步选择 :算法从一个空模型开始,逐个添加重要变量到模型中,直到所有预测变量都包含在模型中。每次添加的变量基于最小 p 值或 R² 的增加。
- 后向逐步选择 :算法从包含所
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



