Chi-squared 卡方检验

最新推荐文章于 2024-12-28 09:07:59 发布

翻译最新推荐文章于 2024-12-28 09:07:59 发布 · 3k 阅读

机器学习专栏收录该内容

18 篇文章

订阅专栏

本文介绍了如何使用卡方检验进行特征选择的方法，包括卡方检验的原理、计算过程及Python实现。通过卡方检验可以量化特征与目标变量之间的关联程度，并筛选出最重要的特征。

卡方检验筛选特征

利用 $\chi^2$ 筛选特征时，我们计算每个特征和类标之间的 $\chi^2$ 统计量，最后选择 $\chi^2$ 分数最高的k个特征。

$\chi^2$ 检验

$\chi^2$ 独立性检验用于检验两个类别型变量之间是否存在显著的关联关系。

特征x	正类	负类	总计
$x = 1$	$A$	$B$	$A + B = M$
$x = 0$	$C$	$D$	$C + D = N - M$
总计	$A + C = P$	$B + D = N - P$	$N$

令 $A, B, C, D$ 表示观测到的数量， $E_A,E_B,E_C,E_D$ 分别表示期望值。

原假设：变量之间相互独立备选假设：变量之间不独立

基于原假设，即变量之间相互独立，那么 $x = 1$ 出现在正类中的概率应该等于 $x = 1$ 出现在所有样本中的概率，因此我们有
$\frac{E_A}{A+C}=\frac{A+B}{N}\Longrightarrow E_A=\frac{A+B}{N}(A+C)$
同理可求出 $E_A,E_B,E_C,E_D$ 。

$\chi^2$ 统计量的计算公式为：

$\chi^2 =\frac{1}{d} \sum_{k=1}^{K}\frac{(O_k-E_k)^2}{E_k}\\ =\frac{(A-E_A)^2}{E_A}+\frac{(B-E_B)^2}{E_B}+\frac{(C-E_C)^2}{E_C}+\frac{(D-E_D)^2}{E_D}$

其中 $d = (r o w s - 1) (c o l s - 1) = (2 - 1) (2 - 1) = 1$ 为自由度。

如果我们拒绝原假设 $（ p < = t h r e s h o l d ）$ ，则特征 $x$ 在我们模型中是一个重要的变量。

注意使用 $\chi^2$ 检验的前提：

类别型变量
频率至少为5
变量独立抽样

Python 中利用 $\chi^2$ 检验筛选特征

	# Load libraries
	from sklearn.datasets import load_iris
	from sklearn.feature_selection import SelectKBest
	from sklearn.feature_selection import chi2
	#Load Data
	# Load iris data
	iris = load_iris()
	
	# Create features and target
	X = iris.data
	y = iris.target
	
	# Convert to categorical data by converting data to integers
	X = X.astype(int)
	
	#Compare Chi-Squared Statistics
	# Select two features with highest chi-squared statistics
	chi2_selector = SelectKBest(chi2, k=2)
	X_kbest = chi2_selector.fit_transform(X, y)
	# Show results
	print('Original number of features:', X.shape[1])
	print('Reduced number of features:', X_kbest.shape[1])