特征选择的5种高阶策略：用Python大幅提升模型性能

原创于 2025-10-11 11:55:01 发布 · 232 阅读

7 ·

CC 4.0 BY-SA版权

第一章：Python数据特征工程

在机器学习项目中，数据特征工程是决定模型性能的关键步骤。原始数据往往包含噪声、缺失值和不一致的格式，直接用于建模可能导致效果不佳。通过合理的特征处理，可以显著提升模型的泛化能力和预测精度。

数据清洗与缺失值处理

真实场景中的数据集常存在缺失值。常见的处理策略包括删除、填充均值/中位数或使用模型预测填补。以下代码展示了如何使用 pandas 进行缺失值填充：

# 导入必要库
import pandas as pd
import numpy as np

# 创建示例数据
data = pd.DataFrame({'age': [25, np.nan, 30, 35], 'salary': [50000, 60000, np.nan, 80000]})

# 使用列的均值填充缺失值
data_filled = data.fillna(data.mean())
print(data_filled)

上述代码中，fillna() 方法结合 mean() 计算每列的平均值并填充对应缺失项，适用于数值型特征。

特征编码

分类变量需转换为数值形式才能被算法识别。常用方法包括独热编码（One-Hot Encoding）和标签编码（Label Encoding）。

独热编码：将类别映射为二进制向量，避免引入虚假的顺序关系
标签编码：为每个类别分配唯一整数，适用于有序分类变量

例如，使用 scikit-learn 实现标签编码：

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
categories = ['low', 'medium', 'high', 'medium']
encoded = encoder.fit_transform(categories)
print(encoded)  # 输出: [1 2 0 2]

特征缩放

不同特征可能具有不同的量纲，影响模型收敛。标准化（Standardization）和归一化（Normalization）是两种常见技术。

方法	公式	适用场景
标准化	(x - μ) / σ	高斯分布数据
归一化	(x - min) / (max - min)	边界明确的数据

第二章：过滤式特征选择策略

2.1 方差阈值法剔除低方差特征

在特征选择中，低方差特征对模型预测贡献较小。方差阈值法通过设定最小方差要求，剔除变化不显著的特征。

基本原理

特征方差越小，说明其在样本间取值差异越小，信息量越低。设定一个阈值，过滤掉方差低于该值的特征。

实现示例

from sklearn.feature_selection import VarianceThreshold

# 示例数据
X = [[0, 2, 0, 3],
     [0, 1, 0, 3],
     [0, 2, 0, 3],
     [0, 1, 0, 3]]

# 设置方差阈值为0.5
selector = VarianceThreshold(threshold=0.5)
X_high_var = selector.fit_transform(X)

print(X_high_var.shape)  # 输出保留的特征维度

上述代码中，VarianceThreshold 默认计算每列方差，仅保留高于 threshold 的特征。例如，第一列为常数，方差为0，将被剔除。

适用于数值型特征
需提前标准化或归一化避免量纲影响
无法考虑特征与目标变量的相关性

2.2 基于相关系数的冗余特征识别

在特征工程中，高相关性的特征可能携带重复信息，导致模型冗余。皮尔逊相关系数是衡量两个连续变量线性关系强度的常用指标，取值范围为[-1, 1]。

冗余特征移除策略

遍历相关矩阵，找出相关系数绝对值大于阈值的特征对
在每一对中保留更具业务解释性的特征
删除其余高相关特征以降低维度

2.3 卡方检验筛选分类任务关键特征

卡方检验是一种基于统计学的特征选择方法，适用于分类任务中评估特征与目标变量之间的独立性。其核心思想是通过计算观测频数与期望频数之间的差异，判断特征是否对分类结果具有显著影响。

卡方统计量计算公式

卡方值计算如下：

# 卡方统计量公式
chi2 = sum((O_i - E_i)^2 / E_i)
# O_i: 观测频数，E_i: 期望频数

该值越大，说明特征与类别相关性越强。

特征筛选实现示例

使用 sklearn 进行卡方检验筛选：

from sklearn.feature_selection import SelectKBest, chi2
import numpy as np

X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])  # 特征矩阵
y = np.array([0, 1, 0])  # 分类标签

selector = SelectKBest(chi2, k=2)
X_selected = selector.fit_transform(X, y)

其中 k=2 表示选择卡方得分最高的前两个特征，chi2 为评分函数。

适用场景与限制

仅适用于分类任务，且输入特征需为非负整数值（如词频）
无法捕捉特征间的非线性组合关系
对稀疏数据表现良好，常用于文本分类场景

2.4 互信息法评估特征与目标变量关系

互信息法（Mutual Information, MI）是一种基于信息论的统计方法，用于衡量两个变量之间的依赖程度。它能够捕捉线性和非线性关系，适用于分类与回归任务中的特征选择。

互信息基本原理

互信息值越大，表示特征与目标变量之间的关联越强。其数学定义为：

MI(X; Y) = Σ Σ p(x,y) * log(p(x,y) / (p(x)*p(y)))

其中，p(x,y) 是联合概率分布，p(x) 和 p(y) 是边缘分布。该公式量化了知道一个变量后，另一个变量的不确定性减少程度。

应用场景与实现

在scikit-learn中可通过 mutual_info_classif 或 mutual_info_regression 快速计算：

from sklearn.feature_selection import mutual_info_classif
mi_scores = mutual_info_classif(X, y, random_state=42)

参数 X 为特征矩阵，y 为目标变量，random_state 确保结果可复现。返回值为每个特征的互信息得分，可用于排序筛选重要特征。

适用于离散与连续变量（需离散化）
无需假设数据分布形式
对噪声敏感，建议结合其他方法验证

2.5 使用Scikit-learn实现过滤式全流程

在特征选择的过滤式方法中，Scikit-learn提供了高效且统一的接口，结合统计指标对特征进行预筛选。

常用统计指标与选择策略

过滤式方法依赖于特征与目标变量之间的统计相关性，常用指标包括卡方检验、互信息和F值。这些可通过sklearn.feature_selection模块实现。

from sklearn.feature_selection import SelectKBest, f_classif
selector = SelectKBest(score_func=f_classif, k=10)
X_selected = selector.fit_transform(X, y)

上述代码使用F检验评分函数选择最优的10个特征。f_classif适用于分类任务，k=10表示保留得分最高的10个特征。

完整处理流程

可将特征选择嵌入Pipeline，确保数据预处理与模型训练的一致性：

标准化数据（StandardScaler）
应用SelectKBest进行过滤
输入分类器（如LogisticRegression）

第三章：包裹式特征选择策略

3.1 递归特征消除（RFE）原理与应用

递归特征消除（Recursive Feature Elimination, RFE）是一种基于模型权重的特征选择方法，通过反复训练模型并剔除最不重要的特征，逐步缩小特征空间。

核心工作流程

训练一个具备特征重要性评估能力的模型（如线性回归、随机森林）
根据特征权重或重要性评分排序
移除最不重要的特征
重复上述过程直至达到预设特征数量

Python 示例代码

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# 构造示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, random_state=42)

# 定义基础模型
estimator = RandomForestClassifier(random_state=42)

# 应用 RFE 选择前 10 个特征
selector = RFE(estimator, n_features_to_select=10)
X_selected = selector.fit_transform(X, y)

该代码中，RFE 包装了随机森林分类器，通过 fit_transform 自动完成特征筛选。参数 n_features_to_select 控制最终保留的特征数，selector.support_ 可查看被选中的特征位置。

3.2 基于模型权重的特征重要性排序

在许多线性模型和神经网络中，特征的重要性可通过分析模型训练后的权重大小进行评估。权重绝对值越大，通常表示该特征对输出的影响越显著。

权重与特征关系解析

对于线性回归或逻辑回归模型，每个输入特征对应一个可学习的权重参数。通过提取这些权重并按绝对值排序，可直观判断哪些特征更具判别力。

权重符号反映特征与目标变量的相关方向（正/负相关）
绝对值大小体现特征影响力强度
适用于低维、高解释性场景

代码实现示例

import numpy as np
from sklearn.linear_model import LinearRegression

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 提取特征重要性
feature_importance = np.abs(model.coef_)
sorted_idx = np.argsort(feature_importance)[::-1]

上述代码首先训练一个线性回归模型，随后取系数的绝对值得到特征重要性，并按降序排列索引，便于后续分析与可视化。

3.3 使用交叉验证优化包裹式选择流程

在包裹式特征选择中，模型性能是特征子集评估的核心指标。引入交叉验证能有效降低因数据划分偏差导致的过拟合风险，提升特征选择的泛化能力。

交叉验证与递归特征消除结合

使用交叉验证（如5折CV）在每轮特征剔除中评估模型表现，确保评价更具稳定性。以下为基于`scikit-learn`的实现示例：


from sklearn.feature_selection import RFE
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# 初始化模型与RFE
model = RandomForestClassifier(n_estimators=100, random_state=42)
rfe = RFE(estimator=model, n_features_to_select=10)

# 拟合RFE
X_rfe = rfe.fit_transform(X, y)

# 交叉验证评估
scores = cross_val_score(rfe, X, y, cv=5, scoring='accuracy')
print(f"CV Accuracy: {np.mean(scores):.3f} (+/- {np.std(scores) * 2:.3f})")

上述代码中，RFE逐轮剔除最不重要特征，cross_val_score在每轮评估中提供稳健的性能估计。参数cv=5表示采用5折交叉验证，scoring='accuracy'定义评估指标。

优化策略建议

结合网格搜索调优RFE中的模型超参数
使用留一法或分层抽样以适应小样本或不平衡数据
记录每轮CV得分，绘制特征数量 vs. 性能曲线辅助决策

第四章：嵌入式特征选择策略

4.1 Lasso回归中的正则化与特征筛选

Lasso回归通过引入L1正则化项，能够在拟合线性模型的同时实现特征筛选。其目标函数为：

from sklearn.linear_model import Lasso
import numpy as np

# 构造示例数据
X = np.random.rand(100, 10)
y = X @ np.array([1, -2, 0, 0, 5, 0, 0, 0, 0, 0]) + np.random.normal(0, 0.1, 100)

# 拟合Lasso模型
model = Lasso(alpha=0.1)
model.fit(X, y)
print("系数:", model.coef_)

上述代码中，alpha=0.1控制正则化强度，值越大，稀疏性越强。Lasso会将不重要特征的系数压缩至零，从而实现自动特征选择。

正则化机制对比

L1正则化（Lasso）：产生稀疏解，适合高维特征选择
L2正则化（Ridge）：缩小系数但不置零，提升稳定性
弹性网络：结合L1与L2，平衡稀疏性与分组效应

特征筛选效果示例

特征编号	真实权重	Lasso估计值
X₁	1.0	0.98
X₅	5.0	4.96
X₂,X₃,…	0.0	0.00

4.2 决策树及其集成方法的内置特征评分

决策树模型通过递归分割数据来构建分类或回归规则，其天然具备评估特征重要性的能力。基于信息增益、基尼不纯度或方差减少等指标，每个特征在分裂过程中贡献的重要性可被量化。

特征重要性计算原理

在单棵决策树中，特征重要性通常由该特征引发的不纯度下降总量归一化得到。集成方法如随机森林和梯度提升树则通过对多棵树的结果取平均，提升评分稳定性。

代码示例：获取随机森林特征评分

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X, y)

print("特征重要性:", model.feature_importances_)

上述代码训练一个随机森林模型，并输出各特征的重要性评分。feature_importances_ 属性返回归一化的得分，反映各特征对模型预测的贡献程度。

4.3 使用GridSearchCV调优嵌入式参数

在机器学习模型优化中，嵌入式方法（如Lasso、Ridge中的正则化参数）直接影响模型复杂度与泛化能力。通过GridSearchCV可系统搜索最优超参数组合。

参数网格定义

使用字典结构指定待优化参数范围：

param_grid = {
    'alpha': [0.01, 0.1, 1.0, 10.0],
    'fit_intercept': [True, False]
}

其中alpha控制L2正则化强度，fit_intercept决定是否拟合截距项。

交叉验证搜索

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Ridge

model = Ridge()
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

cv=5表示五折交叉验证，scoring='r2'以决定系数为评估标准。

结果分析

最佳参数可通过grid_search.best_params_获取
对应得分由best_score_返回
最优模型使用best_estimator_直接预测

4.4 集成多种嵌入式方法提升稳定性

在复杂嵌入式系统中，单一的嵌入策略难以应对多变的运行环境。通过融合静态嵌入、动态加载与增量更新机制，可显著提升系统鲁棒性。

混合嵌入架构设计

采用静态嵌入核心模块保障启动可靠性，动态加载非关键功能以节省资源。以下为模块注册示例：


// 动态模块注册接口
int register_module(const char* name, void (*init_func)()) {
    if (module_count >= MAX_MODULES) return -1;
    modules[module_count].name = name;
    modules[module_count].init = init_func;
    module_count++;
    return 0;
}

该函数将模块初始化入口注册至全局数组，支持按需调用，降低内存常驻压力。

稳定性对比分析

方法	启动速度	内存占用	故障恢复
纯静态嵌入	快	高	依赖重启
混合模式	较快	中	模块热替换

第五章：总结与展望

技术演进中的架构选择

现代分布式系统在高并发场景下面临着延迟与一致性的权衡。以电商秒杀系统为例，采用 Redis 集群作为缓存层可有效缓解数据库压力，但需结合 Lua 脚本保证原子性操作。


// 使用 Lua 脚本实现库存扣减的原子操作
local stock = redis.call("GET", KEYS[1])
if not stock then
    return -1
elseif tonumber(stock) <= 0 then
    return 0
else
    redis.call("DECR", KEYS[1])
    return 1
end