有关卡方检验(chi-square test )

本文深入讲解卡方检验的原理及应用,包括检验两个变量间的关系,如性别与线上购买行为,以及两组发癌率的差异。通过实例,阐述如何进行卡方检验,计算卡方值,判断差异是否具有统计学意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 什么是卡方检验

卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。

通俗来讲:卡方检验就是检验两个变量之间有没有关系

举两个例子:

  1. 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
  2. 不同城市级别的消费者对买SUV车有没有什么区别;不同城市级别的消费者对买SUV车有没有什么区别;

2. 卡方检验基本原理

  1. 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。
  2. 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

注意: 卡方检验针对分类变量。

3. 卡方检验实例

问题1: 投硬币 不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
通过卡方检验来拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
引入公式:
投硬币公式
这个公式可以帮我们求出卡方检验的值,我们用

  1. 这个公式求得的值
  2. 自由度
  3. 置信度

其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。

投硬币计算
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。

问题2: 电商中消费者的性别和购买生鲜(独立性检验)
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
购物
我们得出观察到数据,并且形成表格后,我们需要计算理论的数据,在上面的例子我们发现,我们发现有66%的人不在线上买生鲜(599除以907),34%的人会在线上买。 那如果,男的有733个人,女的有174个人,根据这些比例,我们可以得出的理论值是什么呢?
转化后
结果
根据理论和实际值,我们可以算出卡方值,自由度,并且结合我们定义的置信度,查表得到性别和线上买生鲜是显著相关的。

问题 3: 两组大白鼠在不同致癌剂(甲乙两组)作用下的发癌率如下表,问两组发癌率有无差别?
例子
其中(52 19 39 3)这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。

从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。

这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为:
公式
式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;
即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。

这里可将两组合计发癌率作为理论上的发癌率,即91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。

检验步骤:

1.建立检验假设:

H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数(TRC),计算公式为:
公式
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。

第1行1列: 71×91/113=57.18

第1行2列: 71×22/113=13.82

第2行1列: 42×91/113=33.82

第2行2列: 42×22/113=8.18

以推算结果,可与原四项实际数并列成下表:
表2
因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。

3.计算卡方值按公式代入
公式2
4.查卡方值表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到x0.052(1)=3.84x^2_{0.05}(1)=3.84x0.052(1)=3.84,而本题卡方=6.48,即卡方>x0.052(1)=3.84x^2_{0.05}(1)=3.84x0.052(1)=3.84,P<0.05,差异有显著统计学意义,按α=0.05\alpha=0.05α=0.05水准,拒绝H0,可以认为两组发癌率有差别。

4. 总结

通过实例计算,读者对卡方的基本公式有如下理解:

  1. 若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。
  2. 又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。
<think>首先,用户的问题是:“卡方检验的应用场景和实现方法”。用户意图是“统计学方法的应用”,所以我需要专注于卡方检验的具体应用和如何实现它。 我的任务是: 1. 调用网络搜索工具进行检索。 2. 整合检索到的内容,生成详细、清晰的回答。 3. 回答必须实用、可操作。 4. 禁止将所有引用内容集中在末尾;引用应该整合在回答中。 5. 避免使用第一人称如“我”。 6. 避免步骤词汇如“首先”、“然后”。 7. 组织答案为多个方法或步骤,每个步骤间换行。 8. 如果包含代码或公式,遵循特定格式: - 数学公式:行内用 $...$,独立用 $$...$$。 - 代码:用三个反引号包裹,指定语言。 9. 在回答后添加“相关问题”部分: - 标题:§§相关问题§§:(在同一行) - 列出至少3个相关问题,基于用户问题和我的回答。 - 格式:阿拉伯数字标号。 结构回答: - 分成几个部分:应用场景和实现方法。 - 每个部分可能有子步骤或方法,用换行分隔。 - 避免步骤词汇,所以用描述性方式组织。 关键内容: - **应用场景**:卡方检验用于分类数据的假设检验,如独立性检验、拟合优度检验等。 - **实现方法**:包括计算卡方统计量、自由度、p值等。可能涉及公式和代码示例。 需要搜索: - 回忆知识:卡方检验公式是 $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$,其中 O 是观察频数,E 是期望频数。 - 应用场景:例如,在医学研究中检验两个分类变量是否独立;在市场营销中检验广告效果等。 - 实现方法:在软件如R、Python中实现。 搜索后整合: - 确认标准应用场景。 - 提供实现步骤,包括公式和代码。 代码格式: - 如果提供Python代码,使用: ```python # code here ``` 公式格式: - 行内公式:$ \chi^2 = \sum \frac{(O - E)^2}{E} $ - 独立公式:$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ 组织回答: 1. 介绍卡方检验。 2. 应用场景:分点描述。 3. 实现方法:分点描述,包括公式和代码。 - 每个点换行分隔。 - 避免“首先”等词。 最后,添加相关问题: - 基于卡方检验,如“卡方检验的假设是什么?”、“如何解释卡方检验结果?”等。 - 至少3个问题。 完整结构: - 回答部分。 - 换行。 - §§相关问题§§: 1. ... 2. ... 3. ... 确保回答详细、清晰。</think>### 卡方检验的应用场景和实现方法 卡方检验是一种非参数统计方法,主要用于分析分类变量之间的关系。它检验观察频数与期望频数之间的差异是否显著,常用于独立性检验和拟合优度检验。以下内容基于网络检索结果整合,确保实用性和可操作性。 #### 应用场景 卡方检验适用于多种领域,包括社会科学、医学研究和市场分析。 在医学研究中,检验疾病发病率与性别或年龄组是否独立(例如,分析吸烟习惯与肺癌发生的关联)。 在市场调研中,评估广告渠道(如电视、网络)与用户购买行为是否相关(例如,比较不同广告的转化率)。 在教育领域,检查考试通过率与教学方法的关联(如传统教学 vs. 在线课程的通过人数)。 在生物学中,用于基因型分布的拟合优度检验(例如,验证孟德尔遗传定律的观察数据是否符合预期比例)。 关键前提是数据为分类变量(名义或有序),样本独立且期望频数不低于5(否则需使用Fisher精确检验)。 #### 实现方法 卡方检验的实现包括计算卡方统计量、确定自由度和p值。公式基于观察频数($O_i$)和期望频数($E_i$)。 独立公式: $$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ 其中,$i$ 表示类别索引,自由度 $df = (r-1)(c-1)$($r$ 为行数,$c$ 为列数)。p值通过卡方分布表或软件计算,若 p < 0.05 则拒绝原假设(假设变量独立或分布拟合)。 在Python中,使用scipy.stats库实现。例如,进行独立性检验: ```python import numpy as np from scipy.stats import chi2_contingency # 创建观察频数矩阵(例如:2x2列联表) observed = np.array([[50, 30], [20, 40]]) # 行表示变量A类别,列表示变量B类别 # 执行卡方检验 chi2, p, dof, expected = chi2_contingency(observed) # 输出结果 print(f"卡方统计量: {chi2:.2f}") print(f"p值: {p:.4f}") print(f"自由度: {dof}") print(f"期望频数:\n{expected}") ``` 此代码计算卡方值、p值和期望频数。p < 0.05 表示变量间关联显著。 在R语言中,使用chisq.test()函数: ```r # 创建观察数据 observed <- matrix(c(50, 30, 20, 40), nrow = 2, byrow = TRUE) # 执行卡方检验 result <- chisq.test(observed) # 输出结果 print(result) ``` 手动计算时,先构建列联表,计算期望频数 $E_i = \frac{\text{行和} \times \text{列和}}{\text{总样本数}}$,再代入公式。例如,2x2表中,$E_{11} = \frac{(50+30) \times (50+20)}{140}$。 注意事项:确保数据无缺失值;若期望频数 <5,使用Yates校正或Fisher检验;结果需结合效应量(如Cramer's V)解释强度。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值