法医数据的R语言数据分析:方差不等假设下的线性模型及应用
1. 方差假设与加权最小二乘法
在许多实际情况中,组间方差相等的假设并不现实。F检验在一定程度上对组间方差不等的情况具有鲁棒性,一般认为,当最大方差与最小方差的比值小于4(若使用标准差则为2),且组大小大致相等时,F检验能较好地发挥作用。但置信区间对组间方差不等的情况并不鲁棒。
为解决这一问题,可采用加权最小二乘法(WLS),它假设每个组中每个观测值或残差的方差形式为 (w_i\sigma^2),其中 (w_i) 是特定于第 (i) 个观测值的权重。在单因素方差分析(ANOVA)中,第 (i) 组中每个观测值的权重可设为 (\frac{1}{s_i^2}),其中 (s_i^2) 是第 (i) 组的样本方差,这一方法有时也被称为Welch - James校正。
以下是一个示例说明加权最小二乘法的应用:
Mari等人对确定死前尿液中γ - 羟基丁酸(GHB)的浓度感兴趣。他们从三组人群中采集尿液样本:
- A组:30名正在接受已知口服剂量GHB(商品名为Alcover®)治疗酒精戒断和依赖的酗酒者;
- B组:30名未摄入外源性GHB的志愿者;
- C组:30名尚未开始GHB治疗的酗酒者。
测量每组人群的内源性GHB浓度(µg/mL)后发现,组间变异性差异明显,最大方差与最小方差的比值为14.2,远超过4。因此,考虑使用WLS。在这个例子中,使用WLS或普通最小二乘法(OLS)拟合模型时,估计的组均值没有差异,因为该实验是平衡的(每组观测值数量相等),但组均值的置信区间会有所不同,WLS的置信区间表现更符合预期,A组的区间更宽,B组和C组的区间更窄。