含缺失数据的主成分分析
在数据分析中,缺失数据是一个常见的问题,它可能会对分析结果产生严重影响。本文将探讨在主成分分析(PCA)中处理缺失数据的方法,包括缺失数据的机制、不同机制下的处理方法以及实际应用示例。
1. 缺失数据的初步考量
在进行PCA时,对于一些统计量的计算,存在不同的选择。例如,计算 $\bar{y} j$ 时,是否仅使用完整观测值(即所有三个变量值都可用的观测值),若如此,所有估计的信息损失将达到40%。计算 $s {jk}$ 时,是使用成对可用的观测值($s_{12}$ 损失20%,$s_{13}$ 损失30%,$s_{23}$ 损失40%),还是先移除不完整的观测值。
同时,还需要考虑缺失信息的价值。缺失信息是仅仅降低了效率,增加了推断的不确定性,还是会因为偏差而彻底改变推断的结论。通常,信息损失越小越好。使用成对完整观测值估计的 $Y$ 的方差 - 协方差矩阵为:
$\tilde{S} =
\begin{bmatrix}
4.61 & 2.87 & -1.08 \
2.87 & 2.69 & 0.92 \
-1.08 & 0.92 & 2.29
\end{bmatrix}$
与之对比,使用完整观测值得到的矩阵为:
$\hat{S} =
\begin{bmatrix}
4.41 & 2.37 & -1.19 \
2.37 & 2.83 & 0.92 \
-1.19 & 0.92 & 2.49
\end{b
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



