mRMR（最小冗余最大相关）特征选择算法技术文档

最新推荐文章于 2025-05-07 14:19:16 发布

江椒展

最新推荐文章于 2025-05-07 14:19:16 发布

阅读量1.4k

点赞数 8

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01289/article/details/143038421

mRMR（最小冗余最大相关）特征选择算法技术文档

mrmr 项目地址: https://gitcode.com/gh_mirrors/mr/mrmr

概览

mRMR，即“最小冗余-最大相关”，是一种高效的特征选择算法。它旨在寻找机器学习任务中最小但至关重要的特征子集，对于优化内存消耗、处理速度、性能提升以及增强结果可解释性至关重要。

为何独特

mRMR的独特之处在于其最小优化策略，专注于找到最少但最相关的特征集合，与多数识别所有相关特征的“全相关”方法（如Boruta或基于正向特征重要性的方法）形成鲜明对比。

应用场景

由于其高效性，mRMR非常适合需要频繁且自动执行特征选择的实际机器学习应用场景，特别是在时间限制下。例如，**优步（Uber）**在2019年分享了他们在营销机器学习平台中采用mRMR的成功案例。

安装指南

要将此包安装到您的Python环境中，可通过pip执行以下命令：

pip install mrmr_selection

之后，在代码中通过以下语句导入mRMR库：

import mrmr

使用说明

该库支持多种数据处理工具，包括Pandas、Polars、Spark和Google BigQuery，每种工具都有对应的模块，至少包含mrmr_classif和mrmr_regression两个函数，分别用于分类和回归任务的特征选择。

示例：Pandas中的使用

假设您有一个Pandas DataFrame (X) 和一个目标变量Series (y)。

import pandas as pd
from sklearn.datasets import make_classification
from mrmr import mrmr_classif

X, y = make_classification(n_samples=1000, n_features=50, n_informative=10, n_redundant=40)
X = pd.DataFrame(X)
y = pd.Series(y)

selected_features = mrmr_classif(X=X, y=y, K=10)  # 选取前10个特征

示例：其他工具使用

Polars、Spark 和 Google BigQuery 的使用方式类似，只需调整相应的导入部分并使用相应模块下的函数，确保正确指定数据结构和目标列名即可。比如对于Polars：

import polars as pl
from mrmr import mrmr_regression

# 创建或加载Polars DataFrame
df_polars = pl.from_pandas(pd.DataFrame(...))  # 假设转换自Pandas或直接创建

selected_features = mrmr.polars.mrmr_regression(df=df_polars, target_column="target", K=2)