特征选择的通俗讲解!

本文介绍多种特征选择方法,包括过滤法、包裹法和嵌入法,通过实战案例展示如何利用Python减少特征数量,提升模型效率。

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

译者:佚名,编辑:Datawhale

简  介

据《福布斯》报道,每天大约会有 250 万字节的数据被产生。然后,可以使用数据科学和机器学习技术对这些数据进行分析,以便提供分析和作出预测。尽管在大多数情况下,在开始任何统计分析之前,需要先对最初收集的数据进行预处理。有许多不同的原因导致需要进行预处理分析,例如:

  • 收集的数据格式不对(如 SQL 数据库、JSON、CSV 等)

  • 缺失值和异常值

  • 标准化

  • 减少数据集中存在的固有噪声(部分存储数据可能已损坏)

  • 数据集中的某些功能可能无法收集任何信息以供分析

在本文中,我将通俗介绍如何使用 python 减少 kaggle Mushroom Classification 数据集中的特性数量。

减少统计分析期间要使用的特征的数量可能会带来一些好处,例如:

  • 提高精度

  • 降低过拟合风险

  • 加快训练速度

  • 改进数据可视化

  • 增加我们模型的可解释性

事实上,统计上证明,当执行机器学习任务时,存在针对每个特定任务应该使用的最佳数量的特征(图 1)。如果添加的特征比必要的特征多,那么我们的模型性能将下降(因为添加了噪声)。真正的挑战是找出哪些特征是最佳的使用特征(这实际上取决于我们提供的数据量和我们正在努力实现的任务的复杂性)。这就是特征选择技术能够帮到我们的地方!

图 1:分类器性能和维度之间的关系

特征选择

有许多不同的方法可用于特征选择。其中最重要的是:

1.过滤方法=过滤我们的数据集,只取包含所有相关特征的子集(例如,使用 Pearson 相关的相关矩阵)。

2.遵循过滤方法的相同目标,但使用机器学习模型作为其评估标准(例如,向前/向后/双向/递归特征消除)。我们将一些特征输入机器学习模型,评估它们的性能,然后决定是否添加或删除特征以提高精度。因此,这种方法可以比滤波更精确,但计算成本更高。

3.嵌入方法。与过滤方法一样,嵌入方法也使用机器学习模型。这两种方法的区别在于,嵌入的方法检查 ML 模型的不同训练迭代,然后根据每个特征对 ML 模型训练的贡献程度对每个特征的重要性进行排序。

图 2:过滤器、包装器和嵌入式方法表示 [3]

实践

在本文中,我将使用 Mushroom Classification 数据集,通过查看给定的特征来尝试预测蘑菇是否有毒。在这样做的同时,我们将尝试不同的特征消除技术,看看它们会如何影响训练时间和模型整体的精度。

数据下载:https://github.com/ffzs/dataset/blob/master/mushrooms.csv

首先,我们需要导入所有必需的库。

我们将在本例中使用的数据集如下图所示。

图 3:Mushroom Classification 数据集

在将这些数据输入机器学习模型之前,我决定对所有分类变量进行 one hot 编码,将数据分为特征(x)和标签(y),最后在训练集和测试集中进行。

X = df.drop(['class'], axis = 1)
Y = df['class']
X = pd.get_dummies(X, prefix_sep='_')
Y = LabelEncoder().fit_transform(Y)


X2 = StandardScaler().fit_transform(X)


X_Train, X_Test, Y_Train, Y_Test = train_test_split(X2, Y, test_size = 0.30,  random_state = 101)

特征重要性

基于集合的决策树模型(如随机森林)可以用来对不同特征的重要性进行排序。了解我们的模型最重要的特征对于理解我们的模型如何做出预测(使其更易于解释)是至关重要的。同时,我们可以去掉那些对我们的模型没有任何好处的特征。

start = time.process_time()
trainedforest = RandomForestClassifier(n_estimators=700).fit(X_Train,Y_Train)
print(time.process_time() - start)
predictionforest = trainedforest.predict(X_Test)
print(confusion_matrix(Y_Test,predictionforest))
print(classification_report(Y_Test,predictionforest))

如下图所示,使用所有特征训练一个随机森林分类器,在大约 2.2 秒的训练时间内获得 100% 的准确率。在下面的每个示例中,每个模型的训练时间都将打印在每个片段的第一行,供你参考。

一旦我们的随机森林分类器得到训练,我们就可以创建一个特征重要性图,看看哪些特征对我们的模型预测来说是最重要的(图 4)。在本例中,下面只显示了前 7 个特性。

figure(num=None, figsize=(20, 22), dpi=80, facecolor='w', edgecolor='k')


feat_importances = pd.Series(trainedforest.feature_importances_, index= X.columns)
feat_importances.nlargest(7).plot(kind='barh')

图 4:特征重要性图

现在我们知道了哪些特征被我们的随机森林认为是最重要的,我们可以尝试使用前 3 个来训练我们的模型。

X_Reduced = X[['odor_n','odor_f', 'gill-size_n','gill-size_b']]
X_Reduced = StandardScaler().fit_transform(X_Reduced)
X_Train2, X_Test2, Y_Train2, Y_Test2 = train_test_split(X_Reduced, Y, test_size = 0.30,  random_state = 101)


start = time.process_time()
trainedforest = RandomForestClassifier(n_estimators=700).fit(X_Train2,Y_Train2)
print(time.process_time() - start)
predictionforest = trainedforest.predict(X_Test2)
print(confusion_matrix(Y_Test2,predictionforest))
print(classification_report(Y_Test2,predictionforest))

正如我们在下面看到的,仅仅使用 3 个特征,只会导致准确率下降 0.03%,训练时间减少一半。

我们还可以通过可视化一个训练过的决策树来理解如何进行特征选择。

start = time.process_time()
trainedtree = tree.DecisionTreeClassifier().fit(X_Train, Y_Train)
print(time.process_time() - start)
predictionstree = trainedtree.predict(X_Test)
print(confusion_matrix(Y_Test,predictionstree))
print(classification_report(Y_Test,predictionstree))

树结构顶部的特征是我们的模型为了执行分类而保留的最重要的特征。因此,只选择顶部的前几个特征,而放弃其他特征,可能创建一个准确度非常可观的模型。

import graphviz
from sklearn.tree import DecisionTreeClassifier, export_graphviz




data = export_graphviz(trainedtree,out_file=None,feature_names= X.columns,
        class_names=['edible', 'poisonous'], 
        filled=True, rounded=True, 
        max_depth=2,
        special_characters=True)
graph = graphviz.Source(data)
graph

图 5:决策树可视化

递归特征消除(RFE)

递归特征消除(RFE)将机器学习模型的实例和要使用的最终期望特征数作为输入。然后,它递归地减少要使用的特征的数量,采用的方法是使用机器学习模型精度作为度量对它们进行排序。

创建一个 for 循环,其中输入特征的数量是我们的变量,这样就可以通过跟踪在每个循环迭代中注册的精度,找出我们的模型所需的最佳特征数量。使用 RFE 支持方法,我们可以找出被评估为最重要的特征的名称(rfe.support 返回一个布尔列表,其中 true 表示一个特征被视为重要,false 表示一个特征不重要)。

from sklearn.feature_selection import RFE


model = RandomForestClassifier(n_estimators=700)
rfe = RFE(model, 4)
start = time.process_time()
RFE_X_Train = rfe.fit_transform(X_Train,Y_Train)
RFE_X_Test = rfe.transform(X_Test)
rfe = rfe.fit(RFE_X_Train,Y_Train)
print(time.process_time() - start)
print("Overall Accuracy using RFE: ", rfe.score(RFE_X_Test,Y_Test))

SelecFromModel

selectfrommodel 是另一种 scikit 学习方法,可用于特征选择。此方法可用于具有 coef 或 feature 重要性属性的所有不同类型的 scikit 学习模型(拟合后)。与 rfe 相比,selectfrommodel 是一个不太可靠的解决方案。实际上,selectfrommodel 只是根据计算出的阈值(不涉及优化迭代过程)删除不太重要的特性。

为了测试 selectfrommodel 的有效性,我决定在这个例子中使用一个 ExtraTreesClassifier。

ExtratreesClassifier(极端随机树)是基于树的集成分类器,与随机森林方法相比,它可以产生更少的方差(因此减少了过拟合的风险)。随机森林和极随机树的主要区别在于极随机树中节点的采样不需要替换。

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel


model = ExtraTreesClassifier()
start = time.process_time()
model = model.fit(X_Train,Y_Train)
model = SelectFromModel(model, prefit=True)
print(time.process_time() - start)
Selected_X = model.transform(X_Train)


start = time.process_time()
trainedforest = RandomForestClassifier(n_estimators=700).fit(Selected_X, Y_Train)
print(time.process_time() - start)
Selected_X_Test = model.transform(X_Test)
predictionforest = trainedforest.predict(Selected_X_Test)
print(confusion_matrix(Y_Test,predictionforest))
print(classification_report(Y_Test,predictionforest))

相关矩阵分析

为了减少数据集中的特征数量,另一种可能的方法是检查特征与标签的相关性。

使用皮尔逊相关,我们的返回系数值将在-1 和 1 之间变化:

  • 如果两个特征之间的相关性为 0,则意味着更改这两个特征中的任何一个都不会影响另一个。

  • 如果两个特征之间的相关性大于 0,这意味着增加一个特征中的值也会增加另一个特征中的值(相关系数越接近 1,两个不同特征之间的这种联系就越强)。

  • 如果两个特征之间的相关性小于 0,这意味着增加一个特征中的值将使减少另一个特征中的值(相关性系数越接近-1,两个不同特征之间的这种关系将越强)。

在这种情况下,我们将只考虑与输出变量至少 0.5 相关的特性。

Numeric_df = pd.DataFrame(X)
Numeric_df['Y'] = Y
corr= Numeric_df.corr()
corr_y = abs(corr["Y"])
highest_corr = corr_y[corr_y >0.5]
highest_corr.sort_values(ascending=True)

我们现在可以通过创建一个相关矩阵来更仔细地研究不同相关特征之间的关系。

figure(num=None, figsize=(12, 10), dpi=80, facecolor='w', edgecolor='k')


corr2 = Numeric_df[['bruises_f' , 'bruises_t' , 'gill-color_b' , 'gill-size_b' ,  'gill-size_n' , 'ring-type_p' , 'stalk-surface-below-ring_k' ,  'stalk-surface-above-ring_k' , 'odor_f', 'odor_n']].corr()


sns.heatmap(corr2, annot=True, fmt=".2g")

图 6:最高相关特征的相关矩阵

在这项分析中,另一个可能要控制的方面是检查所选变量是否彼此高度相关。如果是的话,我们就只需要保留其中一个相关的,去掉其他的。

最后,我们现在可以只选择与 y 相关度最高的特征,训练/测试一个支持向量机模型来评估该方法的结果。

单变量选择

单变量特征选择是一种统计方法,用于选择与我们对应标签关系最密切的特征。使用 selectkbest 方法,我们可以决定使用哪些指标来评估我们的特征,以及我们希望保留的 k 个最佳特征的数量。根据我们的需要,提供不同类型的评分函数:

  • Classification = chi2, f_classif, mutual_info_classif

  • Regression = f_regression, mutual_info_regression

在本例中,我们将使用 chi2(图 7)。

图 7:卡方公式 [4]

卡方(chi-squared,chi2)可以将非负值作为输入,因此,首先,我们在 0 到 1 之间的范围内缩放输入数据。

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2


min_max_scaler = preprocessing.MinMaxScaler()
Scaled_X = min_max_scaler.fit_transform(X2)


X_new = SelectKBest(chi2, k=2).fit_transform(Scaled_X, Y)
X_Train3, X_Test3, Y_Train3, Y_Test3 = train_test_split(X_new, Y, test_size = 0.30,  random_state = 101)
start = time.process_time()
trainedforest = RandomForestClassifier(n_estimators=700).fit(X_Train3,Y_Train3)
print(time.process_time() - start)
predictionforest = trainedforest.predict(X_Test3)
print(confusion_matrix(Y_Test3,predictionforest))
print(classification_report(Y_Test3,predictionforest))

套索回归

当将正则化应用于机器学习模型时,我们在模型参数上加上一个惩罚,以避免我们的模型试图太接近我们的输入数据。通过这种方式,我们可以使我们的模型不那么复杂,并且我们可以避免过度拟合(使我们的模型不仅学习关键的数据特征,而且学习它的内在噪声)。

其中一种可能的正则化方法是套索回归。当使用套索回归时,如果输入特征的系数对我们的机器学习模型训练没有积极的贡献,则它们会缩小。这样,一些特征可能会被自动丢弃,即将它们的系数指定为零。

from sklearn.linear_model import LassoCV


regr = LassoCV(cv=5, random_state=101)
regr.fit(X_Train,Y_Train)
print("LassoCV Best Alpha Scored: ", regr.alpha_)
print("LassoCV Model Accuracy: ", regr.score(X_Test, Y_Test))
model_coef = pd.Series(regr.coef_, index = list(X.columns[:-1]))
print("Variables Eliminated: ", str(sum(model_coef == 0)))
print("Variables Kept: ", str(sum(model_coef != 0)))

一旦训练了我们的模型,我们就可以再次创建一个特征重要性图来了解哪些特征被我们的模型认为是最重要的(图 8)。这是非常有用的,尤其是在试图理解我们的模型是如何决定做出预测的时候,因此使我们的模型更易于解释。

figure(num=None, figsize=(12, 10), dpi=80, facecolor='w', edgecolor='k')


top_coef = model_coef.sort_values()
top_coef[top_coef != 0].plot(kind = "barh")
plt.title("Most Important Features Identified using Lasso (!0)")

图 8:套索特征重要性图

来源:https://towardsdatascience.com/feature-selection-techniques-1bfab5fe0784

“整理不易,三连

<think>嗯,用户想让我通俗讲解LDO(低压差线性稳压器)的工作原理和应用。用户还提供了三个关于LDO的引用材料,但根据系统提示,这些引用可能不是用户真正的需求核心,需要更多参考用户上一次的问题和我的回答。 回顾对话历史,用户之前询问过软件开发中的接口概念,我详细解释了接口的定义、作用和原理。现在用户转向电子工程领域的LDO,说明ta可能对技术原理的通俗解释有持续需求,可能是电子爱好者或刚入行的工程师。从用户提供的引用看: [^1]提到PMOS LDO基本结构(运放调节P-MOS输出),有框图链接[^2]说明LDO的广泛应用(低成本、易用) [^3]指出LDO优缺点(噪声小但效率低) 用户的核心诉求很明确:用生活化比喻讲清楚LDO是什么、怎么工作、有什么用。需要避免深奥的公式,但关键参数(如压差)仍需提及。考虑到用户上次接受"外卖接口"的比喻,这次继续用类比方式:1.**定义类比**:把LDO比作"智能水龙头"——入口水压波动(输入电压不稳定),出口却能保持稳定水流(恒定电压输出)。2.**原理分解**:-反馈电阻分压 →水压传感器-运放比较基准电压 →大脑对比目标值-调节P-MOS→自动旋阀门3. **压差概念**:强调"低压差"就像水龙头高度差小也能工作,解释$V_{in}-V_{out}>V_{dropout}$的关系。4.**应用场景**:结合引用[^2][^3],说明手机/传感器等需要"纯净电压"的场景为何依赖LDO,但大功率设备不用(效率低)。 需要特别注意两个技术点: -瞬态响应快(引用[^3])对应比喻"快速调节水流" -效率公式$\eta=\frac{V_{out}}{V_{in}}\times100\%$用独立公式展示最后生成的问题要延续电子工程脉络,比如开关电源对比或选型指南。用户显然在构建基础知识体系,问题需具有递进性。</think>### 通俗讲解 LDO(低压差线性稳压器) #### **1. LDO 是什么?用生活比喻解释** 想象你家的水龙头:当水压忽高忽低时,你希望水流保持稳定。**LDO 就像智能水龙头**: - **输入**:来自水厂的高压水(不稳定的输入电压,如电池或电源) - **输出**:你需要的稳定水流(如给手机芯片供电的 3.3V) - **核心能力**:即使入口水压只比出口高一丁点(**低压差**),也能输出稳定水流! > 💡 **关键特性**:传统稳压器需要输入电压比输出高很多(如 5V 输入 → 3.3V 输出),而 LDO 只需压差 $V_{in}-V_{out} > 0.2V$(甚至更低)就能工作[^2],特别适合电池供电设备(如手机)。 --- #### **2. LDO 的工作原理:三步看懂** 以 PMOS 型 LDO 为例(最常见类型)[^1]: 1. **“眼睛”监控输出**: - 分压电阻($R1$ 和 $R2$)把输出电压 $V_{out}$ 按比例降低 → 得到反馈电压 $V_a$。 - 例如:$V_{out}=3.3V$ 时,$V_a = V_{out} \times \frac{R2}{R1+R2}$(如降到 1.2V)。 2. **“大脑”比较决策**: - 运放将 $V_a$ 与**基准电压** $V_{ref}$(如 1.2V)对比: - 若 $V_a < V_{ref}$ → 说明 $V_{out}$ **太低**! - 若 $V_a > V_{ref}$ → 说明 $V_{out}$ **太高**! 3. **“阀门”调节水流**: - 运放输出信号 $V_g$ 控制 **P-MOS 管**(核心阀门): - $V_{out}$太低 → $V_g$ 让阀门**开大** → 更多电流流过 → $V_{out}$上升 - $V_{out}$太高 → $V_g$ 让阀门**关小** → 限制电流 → $V_{out}$下降 ```mermaid graph LR A[输入电压 Vin] --> B[P-MOS管] B --> C[输出电压 Vout] C --> D[分压电阻 R1/R2] D --> E[反馈电压 Va] E --> F[运放] G[基准电压 Vref] --> F F --> H[控制信号 Vg] H --> B ``` > ✅ **闭环反馈**:整个过程自动循环(红色箭头路径[^1]),实时修正电压波动。 --- #### **3. LDO 的三大核心作用** 1. **稳压**: - 输入电压波动时(如电池从 4.2V 降到 3.0V),输出 $V_{out}$ 保持恒定(如稳定 2.8V)。 2. **滤除噪声**: - 像“净水器”滤除杂质:LDO 能抑制输入端的电压纹波(如开关电源干扰)[^3],输出“纯净”直流。 3. **保护后端电路**: - 避免敏感芯片(如单片机、传感器)被电压突变烧毁。 --- #### **4. 典型应用场景** | **场景** | **为何用 LDO?** | **案例** | |------------------|---------------------------------------------|-----------------------------| | 电池供电设备 | 压差极低!电池电压下降时仍能稳压 | 蓝牙耳机、智能手表[^2] | | 噪声敏感电路 | 输出“超干净”电压,避免干扰信号 | 传感器、音频芯片[^3] | | 多电压系统 | 将 5V 转换为 3.3V/1.8V 给不同芯片供电 | 单片机开发板 | --- #### **5. LDO 的优缺点** | **优点** | **缺点** | |----------------------------------|-----------------------------| | ✅ 电路简单,成本低(仅需几个外围元件) | ❌ 效率低:能量损耗在 MOS 管上 | | ✅ 输出无开关噪声(对比开关电源) | ❌ 发热大:压差大时可能烫手! | | ✅ 瞬态响应快(瞬间响应负载变化)[^3] | ❌ 仅适用小电流(一般 <1A) | > ⚡ **效率公式**: > $$\eta = \frac{V_{out}}{V_{in}} \times 100\%$$ > 例如:$V_{in}=4.2V$ → $V_{out}=3.3V$,效率仅 **78.6%**(剩余 21.4% 变成热量)。 --- ### 总结 **LDO 本质是“智能电压稳定器”**: - 靠运放+P-MOS管实时调节,实现**低压差稳压**。 - 像“精密水龙头”,**滤除噪声、保护电路**,但会“发热出汗”。 - 最适合**电池设备**和**噪声敏感**的小功率场景[^2][^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值