卡方检验x2检验(chi-square test)

本文详细介绍了卡方检验的各种应用场景及计算方法,包括四格表资料的卡方检验、四格表的专用公式、校正方法、行×列表的卡方检验以及配对计数资料的卡方检验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。

    一、四格表资料的x2检验

    例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?

表20-11 两种疗法治疗卵巢癌的疗效比较



组别有效无效合计有效率(%)
化疗组19244344.2
化疗加放疗组34104477.3
合计53348760.9

    表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。这里可通过x2检验来区别其差异有无统计学意义,检验的基本公式为:

    式中A为实际数,以上四格表的四个数据就是实际数。T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。兹以表20-11资料为例检验如下。

    检验步骤:

    1.建立检验假设:

    H0:π1=π2

    H1:π1≠π2

    α=0.05

    2.计算理论数(TRC),计算公式为:

    TRC=nR.nc/n 公式(20.13)

    式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。

    第1行1列: 43×53/87=26.2

    第1行2列: 43×34/87=16.8

    第2行1列: 44×53/87=26.8

    第2行2列: 4×34/87=17.2

    以推算结果,可与原四项实际数并列成表20-12:

表20-12 两种疗法治疗卵巢癌的疗效比较



组别有效无效合计
化疗组19(26.2)24(16.8)43
化疗加放疗组34(26.8)10(17.2)44
合计533487

    因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=26.2),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:

    T1.1=26.2

    T1.2=43-26.2=16.8

    T2.1=53-26.2=26.8

    T2.2=44-26.2=17.2

    3.计算x2值 按公式20.12代入

    4.查x2值表求P值

    在查表之前应知本题自由度。按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查x2界值表(附表20-1),找到x20.001(1)=6.63,而本题x2=10.01即x2>x20.001(1),P<0.01,差异有高度统计学意义,按α=0.05水准,拒绝H0,可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。

    通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,x2值越小;如两者相同,则x2值必为零,而x2永远为正值。又因为每一对理论数和实际数都加入x2值中,分组越多,即格子数越多,x2值也会越大,因而每考虑x2值大小的意义时同时要考虑到格子数。因此自由度大时,x2的界值也相应增大。

    二、四格表的专用公式

    对于四格表资料,还可用以下专用公式求x2值。


    式中a、b、c、d各代表四格表中四个实际数,现仍以表20-12为例,将上式符号标记如下(表20-13),并示范计算。

表20-13 两种疗法治疗卵巢肿瘤患者的疗效



组别有效无效合计
化疗组19(a)24(b)43(a+b)
化疗加放疗组34(c)10(d)44(c+d)
 53(a+c)34(b+d)87(n)

    计算结果与前述用基本公式一致,相差0.01用换算时小数点后四舍五入所致。

    三、四格表x2值的校正

    x2值表是数理统计根据正态分布中的定义计算出来的。    是一种近似,在自由度大于1、理论数皆大于5时,这种近似很好;当自由度为1时,尤其当1<T<5,而n>40时,应用以下校正公式:

    如果用四格表专用公式,亦应用下式校正:

    例20.8某医师用甲、乙两疗法治疗小儿单纯性消化不良,结果如表20-14.试比较两种疗法效果有无差异?

表20-14 两种疗法效果比较的卡方较正计算



疗法痊愈数未愈数合计
26(28.82)7(4.18)33
36(33.18)2(4.82)38
合计62971

    从表20-14可见,T1.2和T2.2数值都<5,且总例数大于40,故宜用校正公式(20.15)检验。步骤如下:

    1.检验假设:

    H0:π1=π2

    H1:π1≠π2

    α=0.05

    2.计算理论数:(已完成列入四格表括弧中)

    3.计算x2值:应用公式(20.15)运算如下:

    查x2界值表,x20.05(1)=3.84,故x2<x20.05(1),P>0.05.

    按α=0.05水准,接受H0,两种疗效差异无统计学意义。

    如果不采用校正公式,而用原基本公式,算得的结果x2=4.068,则结论就不同了。

    如果观察资料的T<1或n<40时,四格表资料用上述校正法也不行,可参考预防医学专业用的医学统计学教材中的精确检验法直接计算概率以作判断。

    四、行×列表的卡方检验(x2test for R×C table)

    适用于两个组以上的率或百分比差别的显著性检验。其检验步骤与上述相同,简单计算公式如下:

    式中n为总例数;A为各观察值;nR和nC为与各A值相应的行和列合计的总数。

    例20.9北方冬季日照短而南移,居宅设计如何适应以获得最大日照量,增强居民体质,减少小儿佝偻病,实属重要。胡氏等1986年在北京进行住宅建筑日照卫生标准的研究,对214幢楼房居民的婴幼儿712人体检,检出轻度佝偻病333例,比较了居室朝向与患病的关系。现将该资料归纳如表20-15作行×列检验。

表20-15居室朝向与室内婴幼儿佝偻病患病率比较



检查结果居室朝向合计
西、西南东、东南北、东北、西北
患病1801412065379
无病200168433333
合计3803020498712
患病率(%)47.446.758.866.353.2
/P>

    该表资料由2行4列组成,称2×4表,可用公式(20.17)检验。

    (一)检验步骤

    1.检验假设

    H0:四类朝向居民婴幼儿佝偻病患病率相同。

    H1:四类朝向居民婴幼儿佝偻病患率不同。

    α=0.05

    2.计算x2值

    3.确定P值和分析

    本题v=(2-1)(4-3)=3,据此查附表20-1:

    x20.01(3)=11.34,本题x2=15.08,x2>x20.01(3),P<0.01,按α=0.05水准,拒绝H0,可以认为居室朝向不同的居民,婴幼儿佝偻病患病率有差异。

    (二)行×列表x2检验注意事项

    1.一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数。当理论数太小可采取下列方法处理:①增加样本含量以增大理论数;②删去上述理论数太小的行和列;③将太小理论数所在行或列与性质相近的邻行邻列中的实际数合并,使重新计算的理论数增大。由于后两法可能会损失信息,损害样本的随机性,不同的合并方式有可能影响推断结论,故不宜作常规方法。另外,不能把不同性质的实际数合并,如研究血型时,不能把不同的血型资料合并。

    2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。

    五、配对计数资料x2检验(x2test of paired comparison of enumeration data)

    在计量资料方面,同一对象实验前后差别或配对资料的比较与两样本均数比较方法有所不同;在计数资料方面亦如此。例如表20-16是28份咽喉涂抹标本,每份按同样条件分别接种在甲、乙两种白喉杆菌培养基中,观察白喉杆菌生长情况,试比较两种培养基的效果。

表20-16 两种白喉杆菌培养基培养结果比较



甲培养基乙培养基合计
+-
+11(a)9(b)20
-1(c)7(d)8
合计121628

    从表中资料可见有四种结果:(a)甲+乙+,(b)甲+乙-(c)甲-乙+,(d)甲-乙-;如果我们目的是比较两种培养基的培养结果有无差异,则(a)、(d)两种结果是一致的,对差异比较毫无意义,可以不计,我们只考虑结果不同的(b)和(c),看其差异有无意义,可以应用以下简易公式计算:

    检验步骤:

    1.检验假设

    H0:π1=π2

    H1:π1≠π2

    α=0.05

    2.计算x2值

    3.确定P值和分析 配对资料v=1,查附表20-1得知x20.05(1)=3.84,x2>x0.05(1),P<0.05,按α=0.05水准,拒绝H0,可以认为甲培养基的白喉杆菌生长效率较高。

    如果b+c>40,则可采用:

    此外还有两种以上处理方法的比较,可参阅预防医学专业的医学统计方法有关章节。

附表20-1 x2界值表



vPVP
0.050.010.0010.050.010.001
13.846.6310.831626.3032.0039.25
25.999.2113.811727.5933.1440.79
37.8111.3416.271828.8734.1842.31
49.4913.2818.471930.1436.1943.82
511.0715.0920.522031.4137.5745.32
612.5916.8122.462132.6738.9346.80
714.0718.4824.322233.9240.2948.27
815.5120.0926.122335.1741.6449.73
916.9221.6727.882436.4242.9851.18
1018.3123.2129.592537.6544.3152.62
1119.6824.7231.262638.8945.6454.05
1221.0326.2232.912740.1146.9655.48
1322.3627.6934.532841.3448.2856.89
1423.6829.1436.122942.5649.5958.30
1525.0030.5837.703043.7750.8959.70
原文链接:http://www.med66.com/html/2005/8/hu79050353148500210950.html

<think>首先,用户的问题是:“卡方检验的应用场景和实现法”。用户意图是“统计学法的应用”,所以我需要专注于卡方检验的具体应用和如何实现它。 我的任务是: 1. 调用网络搜索工具进行检索。 2. 整合检索到的内容,生成详细、清晰的回答。 3. 回答必须实用、可操作。 4. 禁止将所有引用内容集中在末尾;引用应该整合在回答中。 5. 避免使用第一人称如“我”。 6. 避免步骤词汇如“首先”、“然后”。 7. 组织答案为多个法或步骤,每个步骤间换行。 8. 如果包含代码或公式,遵循特定格式: - 数学公式:行内用 $...$,独立用 $$...$$。 - 代码:用三个反引号包裹,指定语言。 9. 在回答后添加“相关问题”部分: - 标题:§§相关问题§§:(在同一行) - 列出至少3个相关问题,基于用户问题和我的回答。 - 格式:阿拉伯数字标号。 结构回答: - 分成几个部分:应用场景和实现法。 - 每个部分可能有子步骤或法,用换行分隔。 - 避免步骤词汇,所以用描述性式组织。 关键内容: - **应用场景**:卡方检验用于分类数据的假设检验,如独立性检验、拟合优度检验等。 - **实现法**:包括计算统计量、自由度、p等。可能涉及公式和代码示例。 需要搜索: - 回忆知识:卡方检验公式是 $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$,其中 O 是观察频数,E 是期望频数。 - 应用场景:例如,在医学研究中检验两个分类变量是否独立;在市场营销中检验广告效果等。 - 实现法:在软件如R、Python中实现。 搜索后整合: - 确认标准应用场景。 - 提供实现步骤,包括公式和代码。 代码格式: - 如果提供Python代码,使用: ```python # code here ``` 公式格式: - 行内公式:$ \chi^2 = \sum \frac{(O - E)^2}{E} $ - 独立公式:$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ 组织回答: 1. 介绍卡方检验2. 应用场景:分点描述。 3. 实现法:分点描述,包括公式和代码。 - 每个点换行分隔。 - 避免“首先”等词。 最后,添加相关问题: - 基于卡方检验,如“卡方检验的假设是什么?”、“如何解释卡方检验结果?”等。 - 至少3个问题。 完整结构: - 回答部分。 - 换行。 - §§相关问题§§: 1. ... 2. ... 3. ... 确保回答详细、清晰。</think>### 卡方检验的应用场景和实现卡方检验是一种非参数统计法,主要用于分析分类变量之间的关系。它检验观察频数与期望频数之间的差异是否显著,常用于独立性检验和拟合优度检验。以下内容基于网络检索结果整合,确保实用性和可操作性。 #### 应用场景 卡方检验适用于多种领域,包括社会科学、医学研究和市场分析。 在医学研究中,检验疾病发病率与性别或年龄组是否独立(例如,分析吸烟习惯与肺癌发生的关联)。 在市场调研中,评估广告渠道(如电视、网络)与用户购买行为是否相关(例如,比较不同广告的转化率)。 在教育领域,检查考试通过率与教学法的关联(如传统教学 vs. 在线课程的通过人数)。 在生物学中,用于基因型分布的拟合优度检验(例如,验证孟德尔遗传定律的观察数据是否符合预期比例)。 关键前提是数据为分类变量(名义或有序),样本独立且期望频数不低于5(否则需使用Fisher精确检验)。 #### 实现卡方检验的实现包括计算统计量、确定自由度和p。公式基于观察频数($O_i$)和期望频数($E_i$)。 独立公式: $$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ 其中,$i$ 表示类别索引,自由度 $df = (r-1)(c-1)$($r$ 为行数,$c$ 为列数)。p通过分布表或软件计算,若 p < 0.05 则拒绝原假设(假设变量独立或分布拟合)。 在Python中,使用scipy.stats库实现。例如,进行独立性检验: ```python import numpy as np from scipy.stats import chi2_contingency # 创建观察频数矩阵(例如:2x2列联表) observed = np.array([[50, 30], [20, 40]]) # 行表示变量A类别,列表示变量B类别 # 执行卡方检验 chi2, p, dof, expected = chi2_contingency(observed) # 输出结果 print(f"统计量: {chi2:.2f}") print(f"p: {p:.4f}") print(f"自由度: {dof}") print(f"期望频数:\n{expected}") ``` 此代码计算、p和期望频数。p < 0.05 表示变量间关联显著。 在R语言中,使用chisq.test()函数: ```r # 创建观察数据 observed <- matrix(c(50, 30, 20, 40), nrow = 2, byrow = TRUE) # 执行卡方检验 result <- chisq.test(observed) # 输出结果 print(result) ``` 手动计算时,先构建列联表,计算期望频数 $E_i = \frac{\text{行和} \times \text{列和}}{\text{总样本数}}$,再代入公式。例如,2x2表中,$E_{11} = \frac{(50+30) \times (50+20)}{140}$。 注意事项:确保数据无缺失;若期望频数 <5,使用Yates校正或Fisher检验;结果需结合效应量(如Cramer's V)解释强度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值