特征选择之最小冗余最大相关性(mRMR)
最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。主要用途有机器学习,图像识别等。
一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR,即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。这就是mRMR的核心思想。
最大相关最小冗余(mRMR),顾名思义,它不仅考虑到了特征和label之间的相关性,还考虑到了特征和特征之间的相关性。度量标准使用的是互信息(Mutual information)。对于mRMR方法,特征子集与类别的相关性通过各个特征与类别的信息增益的均值来计算,而特征与特征的冗余使用的是特征和特征之间的互
机器学习:mRMR与随机森林(RF)特征选择详解
本文详细介绍了特征选择的两种方法:最小冗余最大相关性(mRMR)和随机森林(RF)。mRMR通过最大化特征与类别之间的相关性,最小化特征间的冗余,利用互信息作为度量标准。随机森林则通过构建多棵决策树并计算特征的重要性,提供了一种有效选择特征的方法。文中还探讨了这两种方法的优缺点和实际应用中的实施步骤。
订阅专栏 解锁全文
41





