【漫话机器学习系列】023.特征选择中的卡方应用（Chi-Squared For Feature Selection）

原创于 2024-12-27 09:00:25 发布 · 969 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

漫话机器学习系列专辑专栏收录该内容

277 篇文章

订阅专栏

特征选择中的卡方检验（Chi-Squared for Feature Selection）

卡方检验（Chi-Squared Test）是一种用于特征选择的统计方法，特别适合离散型数据。通过评估特征与目标变量之间的依赖性，它可以帮助识别对目标变量最有影响力的特征。

1. 卡方检验的核心思想

卡方检验衡量的是实际观测值和期望值之间的偏差程度，判断两个变量之间是否独立。

假设：特征 X 和目标 Y 之间是否独立。
统计量：

其中：
- O：实际观测值（Observed frequency）。
- E：期望值（Expected frequency），计算公式为：
结果：
- $\chi^2$ 值越大，说明 X 和 Y 的关系越强。

2. 应用场景

卡方检验适用于以下情况：

数据是离散型变量，例如分类数据。
特征与目标变量之间的关系可以通过频率表表示。

3. 卡方检验在特征选择中的步骤

准备数据：
- 数据包含一个目标变量（离散型）和多个特征（离散型）。
- 连续特征需要先离散化处理（例如分箱）。
构建列联表（Contingency Table）：
- 列联表显示特征的每个类别与目标变量类别的观测频率。
计算卡方统计量：
- 根据列联表，计算每个特征的 $\chi^2$ 值。
特征筛选：
- 按 $\chi^2$ 值从大到小排序，选择最重要的特征。

4. 示例代码

数据准备

假设我们有如下数据集：

import pandas as pd
from sklearn.feature_selection import SelectKBest, chi2

# 示例数据
data = {'Feature1': [1, 0, 1, 0, 1],
        'Feature2': [0, 1, 0, 1, 0],
        'Feature3': [1, 1, 1, 0, 0],
        'Target': [1, 0, 1, 0, 1]}

df = pd.DataFrame(data)
X = df[['Feature1', 'Feature2', 'Feature3']]
y = df['Target']

计算卡方统计量并选择特征

# 使用卡方检验进行特征选择
chi2_scores, p_values = chi2(X, y)

# 打印结果
for feature, chi2_score, p_value in zip(X.columns, chi2_scores, p_values):
    print(f"Feature: {feature}, Chi2 Score: {chi2_score}, P-Value: {p_value}")

# 按卡方值选择前2个重要特征
selector = SelectKBest(chi2, k=2)
X_selected = selector.fit_transform(X, y)

print("Selected Features:\n", X.columns[selector.get_support()])

输出结果

Feature: Feature1, Chi2 Score: 2.0000000000000004, P-Value: 0.15729920705028103
Feature: Feature2, Chi2 Score: 3.0, P-Value: 0.08326451666355042
Feature: Feature3, Chi2 Score: 0.05555555555555565, P-Value: 0.8136637157667916
Selected Features:
 Index(['Feature1', 'Feature2'], dtype='object')