两分类变量相互独立的检验


1 列联表检验

  1. 一个实际例子
    • 杀人犯的种族是否会影响判处死刑的问题。 对 1976-1977年美国佛罗里达州20个地区杀人案件中的674个被告进行调查, 考虑的种族有白人 和黑人, 用  和  表示是否判处死刑。调查后把已有数据整理成表格形式
    Table 1: 种族死刑数据
      白人 黑人
    53 15
    430 176
    死刑百分比 11.0 7.9
  2. 试检验判处死刑是否与杀人犯的种族有关
    a<-matrix(c(53,430,15,176),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 1.1447, df = 1, p-value = 0.2847
    
    • 说明判处死刑与种族没有显著关系
  3. 死刑判决表的细节
    受害人种族 被告人种族 死刑   死刑百分比
    白人白人 53 414 11.3
     黑人 11 37 22.9
    黑人白人 0 16 0
     黑人 4 139 2.8
    小计白人 53 430 11.0
     黑人 15 176 7.9
  4. 考虑条件列联表 受害人为白人
    Table 2: 死刑判决分表之受害人为白人
    受害人种族 被告人种族 死刑  
    白人白人 53 414
     黑人 11 37
    a<-matrix(c(53,11,414,37),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 4.3416, df = 1, p-value = 0.03719
    
  5. 考虑受害人为黑人
    Table 3: 死刑判决分表之受害人为黑人
    受害人种族 被告人种族 死刑  
    黑人白人 0 16
     黑人 4 139
    a<-matrix(c(0,4,16,139),ncol=2)
    chisq.test(a)
    
            Pearson's Chi-squared test with Yates' continuity correction
    
    data:  a
    X-squared = 0, df = 1, p-value = 1
    
    警告信息:
    In chisq.test(a) : Chi-squared近似算法有可能不准
    
  6. 辛普森悖论
    • 边际关联的结果和条件关联的结果方向矛盾的情况称为 辛普森悖论(Simpson's paradox)
    • 统计学家经常用它来警告从 X 到 Y 的关联来推论因果关系的危险性
    • 例如医学家观察吸烟和肺癌的关系的时候, 诸如 R. A. Fisher 等统计学家则强调, 可能 存在其他变量(如基因因素) 会使其在进行相应控制好的情况下吸烟和肺癌的关联消失
    • R. A. Fisher 在这个问题上的立场受到了很多学者的攻击

2 检验两属性变量相互独立的一般情况

  1. 一般的统计模型
    • 设随机变量 X,Y 分别取取值 x1,,xp 和 y1,,yq
    • 从实际中抽取的样本经统计列表如下
    Table 4: 列联表数据
    X/Y y1 …. yj yq  
    x1n11n1jn1qn1.
     
    xini1nijniqni.
     
    xpnp1npjnpqnp.
     n.1n.jn.qn

    其中 n=i=1pj=1qnij

  2. 检验统计量及其分布
    • 取检验统计统计量
      χ2=i=1pj=1q(nijni.n.jn)2ni.n.jn
    • 可以证明在原假设: X,Y 不相关的条件下有
      χ2χ2((p1)(q1))
    • 其自由度为 pq1(p1)(q1)=pqpq+1=(p1)(q1)



<think>嗯,用户现在问的是卡方检验比较的是分类变量还是连续变量。之前他们问过如何将R的数据集保存为dta格式,看起来可能是在做数据分析,尤其是在处理统计相关的工作。现在这个问题是关于卡方检验变量类型,属于统计学基础知识。我需要确认卡方检验适用的变量类型,并给出清晰的解释。 首先,卡方检验主要有种常见类型:卡方拟合优度检验和卡方独立检验。拟合优度检验用于检验单个分类变量的分布是否符合预期,而独立检验则用于检验分类变量是否独立。所以核心在于,卡方检验处理的是分类变量,也就是类别型数据,而不是连续变量。 用户可能对变量类型区分不太清楚,或者在使用卡方检验时遇到了困惑,比如错误地用于连续变量。需要明确说明卡方检验适用于分类变量,并举例说明应用场景,比如性别与偏好之间的关联分析,这样用户更容易理解。 同时,用户可能想知道如果遇到连续变量该怎么办,是否需要转换。这时候应该提到将连续变量离散化,比如分箱处理,转换成分类变量后再使用卡方检验。不过也要提醒,这样做可能会损失信息,影响结果的准确性,可能的话建议使用其他适合连续变量的方法,如t检验或ANOVA。 另外,用户可能会有后续问题,比如如何正确应用卡方检验,或者如何处理实际数据中的问题,比如期望频数过低的情况,这时候需要补充注意事项,比如使用Fisher精确检验作为替代方法。 总结回答结构:先明确回答卡方检验用于分类变量,解释种主要类型,举例说明,对比连续变量的处理方法,最后注意事项。这样用户不仅能得到答案,还能了解相关应用场景和潜在问题。</think>卡方检验(Chi-square test)主要用于分析 **分类变量(Categorical Variables)**,而不是连续变量。它通过比较观测频数与期望频数的差异,判断变量之间是否存在显著关联或是否符合某种理论分布。以下是具体说明: --- ### **一、卡方检验的核心用途** #### 1. **检验分类变量独立性** - **问题示例**:性别(男/女)与吸烟习惯(是/否)是否相关? - **方法**:卡方独立检验(Chi-square test of independence)。 - **原理**:比较实际观测的列联表频数与“变量独立”假设下的期望频数之间的差异。 #### 2. **检验分布拟合优度** - **问题示例**:某地区血型分布(A/B/AB/O)是否符合理论比例(如 3:3:2:2)? - **方法**:卡方拟合优度检验(Chi-square goodness-of-fit test)。 - **原理**:比较观测频数与理论分布的期望频数是否一致。 --- ### **二、卡方检验不适用于连续变量** #### 1. **连续变量的特点** - 连续变量(如身高、温度、收入)是数值型且可无限细分。 - 若强行对连续变量使用卡方检验,需先**离散化**(如将收入分为“高/中/低”),但会损失信息,可能导致偏差。 #### 2. **连续变量的替代方法** - **比较组均值**:t检验组)、ANOVA(多组)。 - **检验分布形态**:K-S检验(Kolmogorov-Smirnov test)。 - **分析变量间关系**:相关分析(Pearson/Spearman)。 --- ### **三、卡方检验的适用条件** 1. **数据类型**:个或多个分类变量(名义或有序)。 2. **样本量要求**:每个单元格的期望频数 ≥5(若不足,可改用 **Fisher精确检验**)。 3. **独立性假设**:观测值需相互独立(如不同个体的数据)。 --- ### **四、R语言示例** #### 1. 独立检验(以性别与吸烟习惯为例): ```r # 创建列联表 data <- matrix(c(50, 30, 20, 40), nrow = 2, dimnames = list( Gender = c("Male", "Female"), Smoking = c("Yes", "No") )) # 执行卡方检验 chisq.test(data) ``` #### 2. 拟合优度检验(以血型分布为例): ```r # 观测频数 observed <- c(100, 90, 60, 50) # A/B/AB/O 型血人数 # 理论比例(3:3:2:2) expected_prop <- c(3, 3, 2, 2) / sum(c(3, 3, 2, 2)) # 执行卡方检验 chisq.test(observed, p = expected_prop) ``` --- ### **五、注意事项** - **小样本问题**:若期望频数过低,卡方检验结果不可靠,改用 **Fisher精确检验**。 - **有序分类变量**:若变量为有序分类(如教育程度:低/中/高),建议使用 **Cochran-Armitage趋势检验** 替代。 - **多重比较**:若同时检验多个变量,需校正显著性水平(如 Bonferroni 校正)。 --- ### **总结** - **适用场景**:卡方检验专门用于分析 **分类变量之间的关联或分布**。 - **连续变量**:需先转换为分类变量(如分箱),但更推荐使用其他统计方法(如t检验、回归分析)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值