一种有监督的过滤式特征选择方法
1. 相关工作
在特征选择领域,有许多有监督的特征选择方法被提出,根据特征选择的方法,可分为过滤式、包裹式和混合式。以下是一些经典且相关的过滤式特征选择方法:
- 单变量过滤方法 :信息增益(IG)、Fisher得分、基尼指数和Relieff ,这些方法也被称为基于排名的方法,它们根据某种质量标准来评估特征,该标准单独量化特征的相关性。
- 多变量特征选择方法 :CFS ,它联合量化特征的相关性,最终提供一个特征子集。
不同方法对数据类型的处理能力也有所不同:
- IG 适用于非数值特征。
- Fisher得分和基尼指数只能处理数值特征。
- CFS和Relieff 可以处理混合数据,CFS将数值和非数值特征都作为非数值处理(数值特征会被离散化),而Relieff 对非数值特征使用汉明距离,对数值特征使用欧几里得距离。
此外,专门为混合数据开发的有监督特征选择方法可分为以下四类:
1. 统计/概率方法 :使用联合误差概率或不同的相关度量来评估特征的相关性。
2. 信息理论方法 :使用互信息或熵等度量来评估特征。
3. 模糊/粗糙集理论方法 :基于模糊关系或等价类(也称为粒度)来评估特征。
4. 基于核的方法 :使用能处理混合数据的专用核、特征搜索策略和分类器(通常是SVM)来进行特征选择。
超级会员免费看
订阅专栏 解锁全文
4862

被折叠的 条评论
为什么被折叠?



