因子模型
对于降维算法里,大家熟知的是SVD和PCA,甚至是t-sne。但在统计解释上来说,降维算法找到了相应的低维子空间,但解释力不足,比如PCA,对于降维后数据的解释力降低。因此对于小规模数据集,在变量众多的情况下,因子模型是较好的处理多变量的方法。通过PCA降维估计,再进行因子旋转,使得因子模型在降维的同时具备了较好的解释力。
准备工作
因子模型假设中心化的X线性依赖于一些未观测到的随机变量F1,...,FmF1,...,Fm和误差,称F1,...,FmF1,...,Fm为公共因子,因子模型可表示为以下一式:
其中 L=(lij)p×mL=(lij)p×m 为因子载荷矩阵, lijlij 为第i个变量在第j个因子上的载荷(描述了第i个变量和第j个因子的相关性), Fm×1Fm×1 称为公共因子, εp×1εp×1 称为特殊因子。
因子模型假设:
1. E(F)=0,Cov(F)=ImE(F)=0,Cov(F)=Im
2. E(ϵ)=0,Cov(ϵ)=φp×p=diag(φ1...φp)E(ϵ)=0,Cov(ϵ)=φp×p=diag(φ1...φp)
3. Cov(ε,F)=0Cov(ε,F)=0
4. Cov(X)=Σp×m=LL′+φ,Cov(X,F)=Lp×mCov(X)=Σp×m=LL′+φ,Cov(X,F)=Lp×m
其中第四条假设为因子模型的核心,则对于i=1,…,p,令l(i)l(i)为L的第i行,则有:
{