神经科学数据处理:缺失值插补与变量变换
1. 缺失数据插补
在各类神经科学数据集中,缺失数据是一个常见问题。例如,共聚焦或电子显微镜下不完美的数字重建可能导致信息缺失,临床神经退行性疾病数据集中某些诊断测试数据也可能缺失。Rubin(1976)将缺失数据机制分为以下三种类型:
- 完全随机缺失(MCAR) :具有缺失数据的案例是所有案例数据的随机子集。例如,阿尔茨海默病(AD)研究中的一份问卷意外丢失。在MCAR中,缺失的原因完全随机,即一个观测值缺失的概率与其他案例特征无关。对于MCAR机制,大多数处理缺失数据的简单技术,如可用案例分析,能给出无偏结果。
- 非随机缺失(MNAR) :某案例中某些变量信息缺失的概率取决于未观测到的信息,如案例本身的值。例如,在AD研究中,认知测试中的缺失数据案例更可能发生在患者处于疾病晚期阶段。这里,缺失的原因并非完全随机,而是与未观测到的患者变量有关。如果缺失数据是MNAR,数据中会丢失有价值的信息,且没有通用的方法能妥善处理缺失数据。
- 随机缺失(MAR) :某案例中某些信息缺失的概率通常取决于该案例中已有的信息,即缺失的原因基于其他观测到的患者特征。例如,评估AD患者特定预后测试的预测价值时,晚期患者的测试结果已知,但非患病受试者和早期患者的测试结果部分未知。在这个例子中,缺失数据是MAR:在可观测的患者特征(这里是疾病阶段)的条件下,缺失数据是随机的。对于MAR,可用案例分析会提供有偏估计,因为它不能被视为整个样本总体的随机样本。然而,更复杂的技术,如单插补和多插补,能提供无偏结果。
处理缺失数据的一种方法是在分
超级会员免费看
订阅专栏 解锁全文
860

被折叠的 条评论
为什么被折叠?



