特征选择之最小冗余最大相关性(mRMR)

原创已于 2024-11-08 16:53:50 修改 · 4.1w 阅读

154 ·

CC 4.0 BY-SA版权

文章标签：

#特征选择 #机器学习 #mRMR

于 2017-05-12 17:37:04 首次发布

机器学习同时被 3 个专栏收录

43 篇文章

订阅专栏

特征提取与选择

7 篇文章

订阅专栏

特征提取与选择

7 篇文章

订阅专栏

mRMR（最小冗余最大相关性）是一种特征选择方法，旨在最大化特征与分类变量的相关性，同时最小化特征间的冗余。该方法通过互信息度量相关性和冗余，并通过增量搜索找到近似最优特征子集。mRMR适用于图像识别和机器学习等领域，具有速度快、结果鲁棒和一阶最优估计的优点。

点击下方图片查看HappyChart专业绘图软件

最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法，由Peng et.al提出。
用途：图像识别，机器学习等
一种常用的特征选择方法是最大化特征与分类变量之间的相关度，就是选择与分类变量拥有最高相关度的前k个变量。但是，在特征选择中，单个好的特征的组合并不能增加分类器的性能，因为有可能特征之间是高度相关的，这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR，
即最大化特征与分类变量之间的相关性，而最小化特征与特征之间的相关性。这就是mRMR的核心思想。

互信息

定义：给定两个随机变量x和y，他们的概率密度函数（对应于连续变量）为 $p (x), p (y), p (x, y)$ ，则互信息为
$I(x;y)=\int\int p(x,y)log\frac{p(x,y)}{p(x)p(y)}dxdy$

mRMR算法

我们的目标就是找出含有 $m\{x_i\}$ 个特征的特征子集 $S$
离散变量
最大相关性:
$D=\frac{1}{|S|}\Sigma_{x_i\in S}I(x_i;c)$
$x_i为第i个特征，c为类别变量，S为特征子集$
最小冗余度：
$R=\frac{1}{|S|^2}\Sigma_{x_i,x_j\in S}I(x_i;x_j)$
连续变量
最大相关性:
$D_F, D_F=\frac{1}{|S|}\Sigma_{x_i\in S}F(x_i;c)$
$F(x_i,c)为F统计量$
最小冗余度：
$R_c, R=\frac{1}{|S|^2}\Sigma_{x_i,x_j\in S}c(x_i;x_j)$
$c(x_i,x_j)为相关函数$
当然，对于这些目标函数，还可以换做其他的函数，像信息增益，基尼指数等。
然后整合最大相关性和最小冗余度：
加法整合：
$\Phi(D,R), \Phi=D-R$
乘法整合：
$\Phi(D,R), \Phi=D/R$
在实践中，用增量搜索方法寻找近似最优的特征。假设我们已有特征集 $S_{m-1}$ ，我们的任务就是从剩下的特征 $X-S_{m-1}$ 中找到第m个特征，通过选择特征使得 $\Phi(.)$ 最大。增量算法优化下面的条件：
$max_{x_j\in X-S_{m-1}}[I(x_j;c)-\frac{1}{m-1}\Sigma_{x_i\in S_{m-1}}I(x_j;x_i)]$
其算法的复杂度为 $O(|S|\cdot M)$
##算法优点

速度快
估计结果更鲁棒
是 $I (.)$ 的一阶最优估计

代码实现：FeatureSelectionsAndExtractions

参考
【Hanchuan Peng et.al】Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy
【Barry O’Sullivan, Cork】Feature Selection for High-Dimensional Data

40 条评论

weixin_58010369 2023.06.09
请问程序中的import bases.base import Base代表的是什么意思，知道的朋友告知一下
- qq_47537490回复weixin_58010369 2023.06.13
  导入bases文件夹下的base.py中的Base类/方法

qq_47537490 2023.06.09
分数怎么输出呢？不太懂

m0_63631782 2023.01.24
博主你好，请问运行后显示mrmr中max_theta_index是 list.remove(x): x not in list怎么解决呢

spectre1362 2022.04.13
mrmr源码的110行，0应该换成i才对
- 230万光年的思念回复spectre1362 2023.02.25
  深以为然

spectre1362 2022.04.11
请问怎么输出分数

spectre1362 2022.04.09
你好，安装后显示mrmr中 list.remove(x): x not in list，显示mrmr源码有问题怎么解决呢

yungeisme 2022.01.10
你好，怎么处理连续型特征呢？按照如上方式连续型特征的熵大都是逼近1，这样正确吗？

baobaoniuniutyu 2021.08.23
请问是怎么输出分数啊

易小题 2020.10.16
您好，想问您一下，您的这个代码能够处理连续变量的特征吗？看您上面的介绍好像是针对离散型变量
- littlely_ll回复易小题 2020.10.17
  可以

易小题 2020.10.14
您好，请问这个怎么用呢？直接创建对象，调用方法吗？from bases import Base 报错了呢。类别这块是用0,1,2这种吗？
- shy^-^cky回复littlely_ll 2021.12.18
  [code=python] m = mrmr.MRMR(2) [/code] 这个括号里的 2 是代表选择2个特征吗
- shy^-^cky回复littlely_ll 2021.12.18
  [code=python] self._selected_features = [ind for ind, mi in selected_features] [/code] 这个代码中的ind, mi代表什么呀
- 易小题回复qq_42975652 2020.10.19
  解决了，按照博主的方法就可以。要把整个项目克隆下来
- littlely_ll回复qq_42975652 2020.10.19
  选择的特征个数，源码里面有解释
- qq_42975652回复易小题 2020.10.18
  您好，我也是from bases import Base 报错，请问你解决了吗？
- qq_42975652回复littlely_ll 2020.10.18
  2是什么意思呢，楼主
- 易小题回复littlely_ll 2020.10.15
  您好,非常感谢您的回答。想问您一下代码是根据mrmr的得分选取特征吗？越大越好？然后选择前feature_number个？
- littlely_ll回复易小题 2020.10.15
  参考代码： [code=python] import pandas as pd from feature_selections import mrmr if __name__ == '__main__': df = pd.read_csv("./iris.data", header=None, names=['a', 'b', 'c', 'd', 'label']) print(df.head()) features = df[['a', 'b', 'c', 'd']] print(features.head()) labels = df["label"] labels = labels.map(lambda x: 0 if x == "Iris-setosa" else 1 if x == "Iris-versicolor" else 2) m = mrmr.MRMR(2) m.fit(features.values, labels.values) x = m.transform(features.values) print(x) print(m.important_features) [/code]
- littlely_ll回复易小题 2020.10.15
  报错可能是包的目录设置问题，我修改了一些东西，现在可以直接clone下来进行安装成包，然后直接[code=python] from feature_selections import mrmr [/code]进行使用就行了，使用方法类似于scikit-learn，类别需要转换成数值