引言
因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
因子分析的形成和早期发展一般认为是从Charles Spearman在1904年发表的文章开始。他提出这种方法用来解决智力测验得分的统计分析。目前因子分析在心理学、社会学、经济学等学科都取得成功的应用。
例1:学生科目成绩因子模型。 ��=���+ε� ,其中 � 表示对所有科目 �� (语文、数学等)所共有的因子,表示智能高低; ε� 是变量 �� 特有的特殊因子。还可以将 � 推广到记忆因子、计算因子等多个因子情形。
例2:调查问卷归类。调查青年对婚姻家庭的态度,问卷题量很多,但可归结为对相貌的重视、对孩子的观点等,每个方面都是一个因子。
例3:考察五个生理指标:收缩压( �1 )、舒张压( �2 )、心跳间隔( �3 )、呼吸间隔( �4 )和舌下温度( �5 )。从生理学的知识,这五个指标受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五个指标有两个公共因子。
因子分析的主要应用有两方面,一是寻求基本结构,简化系统;二是用于分类。
因子分析根据研究对象可以分为R型和Q型因子分析。R型因子分析研究变量之间相关关系,找出控制所有变量的几个公共因子,用以对变量或样品进行分类;Q型因子分析研究样品之间的相关关系,找出控制所有样品的几个主要因素。
因子分析与主成分分析比较
主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或斜交);主成分分析中主成分的个数和变量个数 � 相同,(但一般只选取 �(�<�) 个主成分),而因子分析的目的是要用尽可能少的公因子,以便构造一个结构简单的因子模型;主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合
因子模型
设 �=(�1,…,��)� 是可观测的随机向量, �=(�1,…,��)� 是不可观测的随机向量, ε=(ε1,…,ε�)� ,满足以下模型
{�1−�1=�11�1+�12�2+...+�1���+�1,�2−�2=�21�1+�22�2+...+�2���+�2,......��−��=��1�1+��2�2+...+�����+��.
该正交因子模型的矩阵表示为 �−μ=��+ε 。
正交因子的协方差结构: Σ=�(�)=�[(�−μ)(�−μ)�]=�[(��+ε)(��+ε)�]=��(�)��+�(ε)=���+� ���(�,�)=�[(�−μ)��]=�[(��+ε)��]=�
由上面两个式子,我们用样本协方差 Σ^ 估计出 Σ ,然后由分解式求得 � 和 � 。
一次完整的因子分析包括如下几步:
1.选取原始变量和观测数据,估计样本协方差阵;
2.初步求解A和D,但因子分解不唯一,只近似求解;
3.公因子意义不明确,通过因子旋转找出更合适的公因子,使得公因子尽可能将原始变量进行分组,可解释性更佳;
4.将公因子近似表示成原始变量的线性组合,由此对每个样品点都可以计算各公因子的得分,并用于进一步分析。