独立性检验

本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验

假设检验

假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。

在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。

 

基本的解决方法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t—检验法、χ2检验法、F—检验法,秩和检验等。

χ2独立性检

χ2检验是一种无参数的假设检验。

考虑这以一个问题:某地区有10000合法选民,现统计了男性和女性分别有多少人参加了投票。

 

		Men	Women
_____________________________
Voted		2792	3591
Didn't vote	1486	2131

问“性别”和“投票”是不是相互独立的?

下面就使用假设检验的方法解决这个问题。

我们假设H0:性别和投票相互独立。备选假设H1:性别与投票相关。

计算上表的行和与列和。

 OBSERVED TABLE
		  
		Men	Women 	Total
_____________________________ |______
Voted		2792	3591  |	6383
Didn't vote	1486	2131  |	3617
_____________________________________
Total		4278	5722  |	10000

原始表中的数据用Aij表示,行和用A表示,列和用A·j表示,全部元素的和用A··表示。

投票的概率:

选民为男性的概率:

在H0下,我们认为投票与性别无关,所以男性参加投票的概率为:

这样可以算出男性投票的期望值:0.2731×10000=2731。于是就得到了下面这张“期望表”

	  EXPECTED TABLE
		  
		Men	Women 	Total
_____________________________ |______
Voted		2731	3652  |	6383
Didn't vote	1547	2070  |	3617
_____________________________________
Total		4278	5722  |	10000

观察值与期望值的差值为误差。对于每一个观察值我们计算误差的平方与期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ2=c11+c12+c21+c22=6.584283457

定义自由度为(rows-1)*(cols-1),在我们的例子中自由度为1。

查表:

Degrees of
 freedom	99%  ...	10%	5%	1%
_____________________________________________________
1		0.00016		2.71	3.84	6.64
2 		0.020		4.60	5.99	9.21

由于χ2介于3.84和6.64之间,所以P值介于5%和1%之间,也就是说我们接收假设H0的把握还不到5%,因此拒绝它。

最后给出CHI-Square独立检测的公式:

自由度,r表示行数,c表示列数

期望值,nr是行和,nc是列和,n是所有元素的和

统计量,Or,c是观察值

由(3)式可以推出,对于一个2×2的contigency table,χ2统计量可以由(4)式来计算。

 

 Variable 2

 

 Data type 1

 

 Data type 2

 

 Totals
 Category 1

 

 a

 

b

 

a + b
 Category 2

 

 c

 

d

 

c + d
 Total

 

a + c

 

b + d

 

a + b + c + d = N

基于χ2的特征项选择

既然χ2统计量可以独立性检验,从独立性检验的对立面来考虑,χ2统计量也可以用来作相关性的度量。χ2越小说明变量之间越独立,χ2越大说明变量之间越相关。

  文档类别Cj Cj的补集
词条w a b
w的补集 c d

a表示词条w在类别Cj中出现的频数;b表示词条w在Cj以外的其他类别中出现的频数;c表示除w以外的其他词条在Cj中出现的频数;d表示除w以外的其他词条在除Cj外的类别中出现的频数。

利用公式(4)计算每个词条对于每种分类的χ2统计量,记为χ2(w,Cj)。说明词条与分类正相关;说明词条与分类负相关。

则词条对整个语料库的记χ2值为

根据(5)式计算每个词条的平均χ2值,选最大的K个作为特征项。

秩和检验

秩和检验也是一种无参数的假设检验。它从两个未知分布的总体中独立、随机地抽取容量分别为n1、n2的样本,设n1<n2。然后把两个样本混合在一起进行排序,得到每个样本单位的秩次。当几个数据的大小相同秩次却不相同时,最终的秩次取其算术平均。 

数据: 5 6 6 7 7 8 8 9 10 10 11
秩号: 1 2.5 2.5 4.5 4.5 6.5 6.5 8 9.5 9.5 11

红颜色的数据来自一个总体,黑颜色的来自另一个总体。n1=5,n2=6。

原假设:两个总体服从相同的分布。

备选假设:两个总体服从不同的分布。

总体Ⅰ的秩和   T=2.5+4.5+6.5+6.5+9.5=29.5

取显著水平α=0.05,进行双侧检验,查“秩和检验表”,n1=5,n2=6,得临界值T1(α)=20,T2(α )=40。
20<29.5<40,样本落入接受域,所以接受原假设。 
原文来自:博客园(华夏35度) 独立性检验
### 如何在SPSS中执行独立性检验 #### 使用SPSS进行独立性检验的概述 独立性检验通常用于评估两个分类变量之间是否存在关联。常见的方法之一是 **卡方独立性检验**,它适用于 n×c 表格数据的情况[^3]。 以下是具体的操作流程: --- #### 数据准备 确保数据已正确输入到 SPSS 中。对于卡方独立性检验,数据应以频数形式呈现,或者可以直接记录每个个体所属的类别。如果需要对比多个组别的分布情况,则需设置分组变量和响应变量。 --- #### 卡方独立性检验操作步骤 1. 打开 SPSS 软件并加载所需的数据文件。 2. 进入菜单栏,依次选择 `Analyze` → `Descriptive Statistics` → `Crosstabs...`。 3. 在弹出窗口中,将自变量(行变量)拖动至 “Row(s)” 框内;因变量(列变量)则放入 “Column(s)” 框内。 4. 点击右侧的按钮 `Statistics…` ,勾选选项中的 `Chi-square` 来启用卡方检验功能。 5. 返回主界面后继续点击下方的 `Cells…` 设置单元格显示内容,建议至少勾选 Observed 和 Expected Counts 以便查看实际值与期望值之间的差异。 6. 完成上述配置之后单击 OK 开始运行分析过程。 --- #### 结果解读 完成计算后会生成交叉表及相关统计量的结果表格: - 如果 p 值小于显著水平 (通常是0.05),可以拒绝原假设 H₀ 并认为这两个因素存在一定的关系; - 反之当 P>α时接受零假说即表明两者相互独立无明显联系。 此外,在某些情况下可能还需要考虑其他指标来补充说明结论的有效性和可靠性,比如效应大小度量 Cramér's V 或者 Phi Coefficient 等辅助衡量标准。 --- ```plaintext // 示例代码展示如何导出结果为CSV格式保存下来供后续处理使用 GET FILE='yourdata.sav'. DATASET NAME DataSet1 WINDOW=FRONT. CROSSTABS /TABLES=rowvar BY colvar /STATISTICS=CHISQ /CELLS=COUNT EXPECTED RESID . EXPORT OUTFILE="results.csv" TYPE=TXT REPLACE MAP / FIELDS=ALL . ``` --- #### 注意事项 需要注意的是,虽然可以通过图形初步判断是否满足正态分布特性[^1],但在正式开展参数测试前最好先验证其前提条件——包括但不限于正态性和方差齐次性的确认工作。这决定了最终选用何种类型的检验方式更为合适(如t-test vs non-parametric tests)[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值