不完全协变量数据的影响及处理方法
1. 缺失值机制
在许多研究中,协变量存在缺失值是一个常见问题。这些缺失值的产生可能有多种原因,比如:
- 受试者拒绝回答某些问题;
- 受试者记不起过去的事件(如疫苗接种情况);
- 实验室测量失败或探针丢失;
- 患者记录不完整。
大多数统计软件包的标准做法是从分析中剔除至少一个协变量存在缺失值的所有受试者,这被称为完全病例分析。为了理解完全病例分析的潜在优缺点,我们需要简要讨论缺失值机制的典型和重要特性。
1.1 随机缺失(MAR)
如果协变量 X 的真实值与缺失值的出现之间没有关系,那么就称缺失值是随机出现的,且缺失机制满足 MAR 假设。然而,当缺失值是由于主动拒绝回答问题而产生时,MAR 假设往往值得怀疑,因为拒绝回答的决定通常与真实答案有关。例如,关于收入、酗酒、大量吸烟或性活动等问题的缺失值,很可能不满足 MAR 假设。即使受试者如实回答“我不知道”,这种缺失值也可能并非随机出现。
不过,MAR 假设允许缺失值的出现依赖于其他已测量的协变量或结果。例如,如果我们知道老年受试者比年轻受试者更常拒绝回答关于性活动的问题,且年龄是回归模型中的一个协变量,那么只要这些缺失值与真实答案无关,性活动变量中的缺失值仍可能是随机出现的。
1.2 依赖于 X 的缺失(MDX)
该假设要求任何协变量中缺失值的出现可能与该协变量的真实值、其他观测到的协变量的值或该受试者中其他有缺失值的协变量的真实值有关,但不允许依赖于结果变量 Y 的值。这种假设在前瞻性研究中通常成立,因为所有协变量的数据是在测量 Y 之前以及导致最终测量 Y
超级会员免费看
订阅专栏 解锁全文
7453

被折叠的 条评论
为什么被折叠?



