不同数据类型、设计类型和分布条件下常用的统计检验方法举例

本文链接：https://blog.youkuaiyun.com/Y20220816/article/details/149071830

一、连续变量 (Continuous Variables)

独立 (Independent Groups)
- 两组 (Two Groups)
  - 正态、方差齐 (Normality & Homoscedasticity)
    - 方法： 独立样本 t 检验 (Independent samples t-test)
    - 例子： 比较服用新药组和服用安慰剂组患者治疗后的收缩压水平（假设血压数据在两组均服从正态分布且方差齐）。
  - 正态、方差不齐 (Normality but Heteroscedasticity)
    - 方法： t’ 检验 (Welch’s t-test)
    - 例子： 比较城市居民和农村居民的年收入水平（假设收入数据在两组均服从正态分布，但城市居民收入的方差远大于农村居民）。
  - 非正态和/或方差不齐 (Non-normal and/or Heteroscedasticity)
    - 方法： Wilcoxon 秩和检验 / Mann-Whitney U 检验 (Wilcoxon rank-sum test / Mann-Whitney U test) (两者等价)
    - 例子： 比较两种不同教学方法下学生期末考试成绩的分布（假设成绩数据明显偏态或存在极端值，或/且两班成绩的离散程度差异很大）。
- 多组 (Three or More Groups)
  - 正态、方差齐 (Normality & Homoscedasticity)
    - 方法： 单因素方差分析 (One-way ANOVA)
    - 例子： 比较 A、B、C 三种不同肥料对农作物产量的影响（假设产量数据在三种肥料处理组均服从正态分布且方差齐）。如果 ANOVA 显著，还需要进行事后比较 (如 LSD, Bonferroni, Tukey)。
  - 非正态、方差不齐 (Non-normal and/or Heteroscedasticity)
    - 方法： Kruskal-Wallis H 检验 (Kruskal-Wallis H test)
    - 例子： 比较四个不同地区员工每周加班时间的分布（假设加班时间数据严重偏态，或/且不同地区加班时间的离散程度差异很大）。
配伍 (Paired / Blocked / Repeated Measures)
- 两组 (Two Groups - Paired)
  - 差值正态 (Normality of Differences)
    - 方法： 配对样本 t 检验 (Paired samples t-test)
    - 例子： 比较同一组患者在接受某种降糖药治疗前和治疗后的空腹血糖水平（假设治疗前后血糖的差值服从正态分布）。
  - 差值非正态 (Non-normality of Differences)
    - 方法： Wilcoxon 符号秩检验 (Wilcoxon signed-rank test)
    - 例子： 比较同一组受试者使用两种不同止痛药（A 和 B）后的疼痛评分减轻程度（假设疼痛评分差值的分布不服从正态分布）。
- 多组 (Three or More Groups - Repeated Measures / Randomized Block)
  - 残差正态、方差齐 (Normality & Sphericity/Homoscedasticity of Residuals)
    - 方法： 两因素方差分析 (Two-way ANOVA) - 通常指重复测量方差分析或随机区组方差分析
    - 例子：
      - 重复测量： 同一组受试者在基线、治疗第4周、治疗第8周分别测量某项生理指标（如心率）。
      - 随机区组： 在农业试验中，将土壤肥力不同的地块作为区组，在每个区组内随机分配 A、B、C 三种肥料处理。
  - 残差非正态/方差不齐 (Non-normality and/or Violation of Sphericity/Homoscedasticity of Residuals)
    - 方法： Friedman M 秩和检验 (Friedman test)
    - 例子：
      - 重复测量： 同一组患者尝试三种不同的物理疗法（顺序随机），每次治疗后评估疼痛缓解程度（等级评分，或连续数据但严重偏态）。
      - 随机区组： 不同厨师（区组）分别用三种不同品牌的烤箱（处理）烤制同一款蛋糕，评价蛋糕的色泽得分（等级）。

二、等级变量 (Ordinal Variables)

表格中的行： “自变量为任何数据类型 | | | 简单线性回归” - 这看起来像是一个错误或放错了位置。等级变量作为因变量时，通常不推荐简单线性回归，因为它假设连续性和正态性。
补充说明 (表格下方)： “统计学方法不同满足正态性的连续性变量，独立时可采用 CMH 卡方检验”
- 方法： Cochran-Mantel-Haenszel (CMH) 卡方检验 (特别指 Generalized CMH Test for Association)
- 例子： 研究不同年龄段（分层变量：青年、中年、老年）人群的受教育程度（等级变量：高中及以下、本科、硕士及以上）与幸福感评分（等级变量：低、中、高）之间的相关性（控制年龄的影响）。CMH检验在这里用于检验在控制了年龄分层后，教育等级与幸福感等级是否存在关联。

三、分类变量 (Categorical Variables)

独立 (Independent Groups)
- 二分类 (Binary Outcome)
  - 两组 (Two Groups)
    - n ≥ 40, T ≥ 5 (总样本量≥40, 所有理论频数≥5)
      - 方法： Pearson 卡方检验 (Pearson’s Chi-squared test)
      - 例子： 比较男性和女性吸烟者（是/否）的比例是否有显著差异（总人数 100 人，计算的理论频数都大于 5）。
    - n ≥ 40, 1 ≤ T < 5 (总样本量≥40, 存在理论频数在1到5之间)
      - 方法： 连续性校正卡方检验 (Continuity corrected Chi-squared test / Yates’ correction)
      - 例子： 比较 A 医院和 B 医院某种罕见手术并发症（是/否）的发生率（总样本量 60，其中一个格子的理论频数为 3.8）。
    - n < 40 或 T < 1 (总样本量<40, 或存在理论频数<1)
      - 方法： Fisher 精确概率检验 (Fisher’s exact test)
      - 例子： 研究某种罕见基因型（有/无）与某种罕见疾病（患病/健康）的关联（总样本量 25，其中一个格子的理论频数为 0.8）。
  - 多组 (Three or More Groups)
    - 方法： Pearson 卡方检验 (Pearson’s Chi-squared test) 【表格此处未细分条件，但实际应用仍需检查理论频数，若不符合Pearson卡方要求（如≥20%格子理论频数<5），需考虑Fisher精确检验或合并类别】
    - 例子： 比较 A、B、C 三种不同职业人群（教师、程序员、销售）购买新能源汽车（是/否）的比例是否有差异（总样本量较大，理论频数均满足要求）。
- 多分类 (Nominal Outcome)
  - 两组 (Two Groups)
    - 没有格子 T < 1, 且 ≤1/5 格子 1≤T<5 (No expected cell count <1, and ≤20% cells have 1≤expected count<5)
      - 方法： Pearson 卡方检验 (Pearson’s Chi-squared test) 或 CMH 卡方检验 (如果涉及分层)
      - 例子： 比较线上购物平台用户（平台A用户 vs 平台B用户）偏好的支付方式（微信、支付宝、银行卡、其他）分布是否有差异（总样本量大，所有理论频数>5）。
    - 有格子 T < 1 或 >1/5 格子 1≤T<5 (Any expected cell count <1 or >20% cells have 1≤expected count<5)
      - 方法： Fisher 精确概率检验 (Fisher’s exact test) 【适用于2xK表，K>2】
      - 例子： 研究某罕见病（病例组 vs 对照组）患者的血型分布（A、B、O、AB型）是否存在差异（总样本量较小，或某些血型组合的理论频数很低，如AB型病例的理论频数=0.7）。
  - 多组 (Three or More Groups)
    - 方法： Pearson 卡方检验 (Pearson’s Chi-squared test) 【同样需检查理论频数，不满足时考虑Fisher精确检验或合并】
    - 例子： 比较来自华北、华东、华南、华西四个地区消费者偏好的手机品牌（苹果、华为、小米、OPPO、vivo）分布是否有差异。
配伍 (Paired / Matched)
- 二分类 (Binary Outcome)
  - b + c ≥ 40 (不一致对子数 b+c ≥40)
    - 方法： McNemar 配对卡方检验 (McNemar’s test)
    - 例子： 评价某种新诊断试剂的效果。100名受试者同时用金标准方法和新试剂检测（阳性/阴性）。比较两种方法检测结果不一致的部分（即金标准阳性新试剂阴性 b 例，金标准阴性新试剂阳性 c 例）是否有统计学差异（b+c=35+15=50≥40）。
  - b + c < 40 (不一致对子数 b+c <40)
    - 方法： 校正 McNemar 检验 (McNemar’s test with continuity correction)
    - 例子： 同上研究，但样本量较小，只有 b=8, c=5 个不一致对子 (b+c=13<40)。
- 多分类 (Nominal Outcome)
  - 方法： Bowker 对称性检验 (Bowker’s test of symmetry) 【适用于KxK配对表，K≥3】
  - 例子： 同一批患者由两位放射科医生（医生A和医生B）独立阅片，对肺部结节进行良恶性判断（分类：良性、不确定、恶性）。评估两位医生的诊断结果是否具有一致性（或对称性）。注意：Bowker检验检验的是对称性（边际同质性），而评估一致性通常用Kappa系数，但Kappa系数的计算需要先通过Bowker检验等确认边际同质性是否成立。

总结说明：

正态性、方差齐性： 是参数检验（t检验、ANOVA）的核心假设，必须通过统计检验（如 Shapiro-Wilk, Levene’s）或图形（如QQ图）来评估。不满足时需使用对应的非参数检验。
理论频数 (T)： 在卡方检验中至关重要。Pearson卡方检验要求理论频数不能太小（一般要求80%格子>5且无格子<1），否则结果不可靠，需使用校正卡方、Fisher精确检验或合并类别。
设计类型： 独立设计（不同个体）和配伍设计（同源个体，如自身前后、配对、区组、重复测量）决定了使用不同的检验方法。
变量类型： 连续变量、等级变量、分类变量（二分类、多分类）适用的统计方法完全不同。
目的： 比较组间差异、检验相关性、评估一致性等目的也影响方法选择。
此表是核心指南： 这个表格提供了一个非常好的选择统计方法的决策框架。在实际应用中，还需结合具体研究问题、数据特征和软件操作细节来选择最恰当的方法并进行正确的假设检验。