一、概述
因子分析(Factor Analysis)是一种统计方法,旨在用少数几个潜在的、不可观测的因子去描述众多可观测变量之间的相关关系。它假设观测变量主要受到一些公共因子的影响,同时还有各自特有的特殊因子影响。例如,在研究学生的学习成绩时,可能存在如学习能力、学习态度等公共因子影响着各科成绩这些观测变量,而每科成绩又可能有其独特的比如该科目老师教学风格等特殊因子影响。
二、数学模型
因子分析的数学模型为:
X=μ+ΛF+ϵ
X:观测变量向量
μ:均值向量
Λ:因子载荷矩阵
F:潜在因子向量
ϵ:误差项向量
三、计算步骤
1.数据收集与标准化:首先收集相关变量的数据,并对数据进行标准化处理,使得各变量具有相同的量纲,消除量纲差异带来的影响,一般常用的标准化方法有 Z-score 标准化等。
2.计算相关系数矩阵:求出各变量之间的相关系数,形成相关系数矩阵,以此来考察变量间的线性相关程度,为后续提取公共因子提供依据。
3.确定因子个数:有多种方法来确定,比如根据特征值大于 1 的原则(通常认为特征值大于 1 的因子才是比较重要的、值得提取的公共因子),或者通过碎石图(观察碎石图中曲线的拐点,拐点前的因子往往是比较关键的因子)等方法来确定合适的因子数量。
4.提取公共因子:常用的提取方法有主成分分析法、主轴因子法等,通过这些方法来获取公共因子,主成分分析法是较为常用的一种,它是将原始变量进行线性组合,使得组合后的新变量(即公共因子)能够尽可能多地保留原始变量的信息。
5.因子旋转:为了使公共因子的实际意义更清晰、更便于解释,会进行因子旋转操作,常用的旋转方法有正交旋转(如方差最大正交旋转)和斜交旋转等,旋转后各变量在不同因子上的载荷会发生变化,让各因子有更明确的意义。
6.计算因子得分:根据提取和旋转后的因子情况,计算各个样本在各个因子上的得分,因子得分可以进一步用于后续的聚类分析、回归分析等,比如根据消费者在不同产品偏好因子上的得分对消费者进行聚类,了解不同消费群体的特点。
四、应用场景及优缺点
(一)应用场景
1.心理学领域:用于分析人格特质、智力结构等。例如,通过一系列心理测试题目(观测变量)来挖掘出如外向性、神经质等人格因子(公共因子),以了解个体的心理特征。
2.市场调研方面:剖析消费者对产品的偏好、满意度等。比如分析消费者对于不同品牌手机在屏幕、拍照、续航、外观等各方面评价变量,提炼出影响消费者选择手机的关键因子,帮助企业改进产品和制定营销策略。
3.经济学领域:研究宏观经济指标间的内在联系,像分析通货膨胀率、失业率、GDP 增长率等众多指标背后的潜在经济驱动因子等。
4.社会学研究:探索社会现象背后的影响因素,例如分析不同地区居民的生活满意度相关变量,找出公共因子如社会福利因子、社区环境因子等。
(二)优缺点
优点
1.能够有效简化复杂的数据结构,降低数据维度,让分析人员更聚焦于关键因素。
2.可以挖掘出隐藏在变量背后的潜在结构和关系,有助于更深入地理解所研究的现象。
缺点
1.对数据的质量要求较高,要求变量之间具有一定的相关性,如果相关性不强,可能不太适合进行因子分析。
2.因子的解释存在一定主观性,尤其是在进行因子旋转和对因子赋予实际意义时,不同的分析人员可能会有不同的解读。
五、实例及SPSS实现
通过国家统计局官方网站采集2022年各省份人口相关数据,通过因子分析来确定关键的隐藏因子。
**
(一).数据标准化
**
常用的标准化方法是 Z - 分数标准化,即将原始数据转换为均值为 0、标准差为 1 的标准正态分布数据。在 SPSS 中可按以下步骤操作:
打开转换菜单:在 SPSS 主界面中,依次点击 “分析”→“描述统计”→“描述”,打开 “描述性” 对话框。
选入需要标准化的变量:从左侧的变量列表框中,将准备进行因子分析的所有变量选入到右侧的 “变量” 框内。
勾选 “将标准化得分另存为变量” 选项:在 “描述性” 对话框中,找到并勾选 “将标准化得分另存为变量”,此操作会让 SPSS 自动对所选变量进行 Z - 分数标准化处理,并将标准化后的数据以新变量的形式保存在数据文件中。这些新变量的名称通常会在原变量名前加上 “Z” 作为标识。
其他可选设置(按需操作):在该对话框中,还可以根据需要勾选其他选项,例如 “均值”“标准差”“最小值”“最大值” 等,以便查看原始变量的基本描述统计量。
点击 “确定”:SPSS 开始对所选变量进行标准化处理,处理完成后会在数据视图中显示新生成的标准化变量。
(二)、进入因子分析模块
打开分析菜单:在 SPSS 主界面中,依次点击 “分析”→“降维”→“因子分析”,打开因子分析的对话框。
三、变量选择
选入分析变量:将需要进行因子分析的变量从左侧的变量列表框中选入到右侧的 “变量” 框内。此次分析将各省变量标准化后数据作为变量进行分析。
四、描述性统计选项设置
点击 “描述” 按钮:在弹出的 “描述” 对话框中,一般可以勾选 “单变量描述性”,这样可以得到各变量的均值、标准差等统计量,便于对数据有初步的整体了解;同时勾选 “原始分析结果”,能够输出相关系数矩阵等内容,这些对于后续判断变量间关系很重要,设置完成后点击 “继续” 返回主对话框。
五、相关性分析选项设置
点击 “相关性矩阵” 按钮:在新弹出的对话框中,通常会勾选 “系数” 选项,这将输出变量间的相关系数矩阵,帮助查看变量之间的线性相关程度,以此来初步判断是否适合进行因子分析。还可以根据需要勾选 “显著性水平” 等选项,查看相关系数的显著性情况,之后点击 “继续” 返回主对话框。
六、提取因子相关设置
点击 “提取” 按钮:
提取方法选择:常用的提取方法有主成分分析法、主轴因子法等,比较常用的是主成分分析法,它能尽可能多地保留原始变量的信息,所以一般在 “方法” 下拉列表中选择 “主成分”。
确定提取因子的数量:有多种方式,比如可以根据特征值大于 1 的原则(系统默认会按照此规则在 “碎石图” 等输出结果中标记),即特征值大于 1 的因子会被提取出来;也可以通过指定固定的因子数量,或者根据累计方差贡献率达到一定比例(如 80% 等)来确定提取多少个因子,设置好后点击 “继续” 返回主对话框。
七、旋转因子相关设置
点击 “旋转” 按钮:
选择旋转方法:常用的旋转方法有正交旋转(如方差最大旋转)和斜交旋转(如直接斜交旋转)等。如果希望提取出的因子之间相互独立,可选择正交旋转;若考虑因子之间可能存在相关关系,则选择斜交旋转。例如,选择方差最大旋转这种正交旋转方法后,点击 “继续” 返回主对话框。
设置旋转收敛的最大迭代次数等参数(一般默认即可)。
八、因子得分设置
点击 “得分” 按钮:
选择计算因子得分的方法:如回归法、巴特莱特法等,常用回归法来计算因子得分,它可以将各因子表示为原始变量的线性组合,便于后续进一步分析。
勾选 “保存为变量” 选项:这样 SPSS 会在数据文件中新增相应的因子得分变量,方便后续进行聚类分析、回归分析等其他深入研究时使用,完成后点击 “继续” 返回主对话框。
九、确定并运行分析
点击 “确定” 按钮:SPSS 就会按照上述设置开始运行因子分析,并在输出窗口中给出一系列结果,包括相关系数矩阵、公因子方差、解释的总方差(包含各因子的特征值、方差贡献率、累计方差贡献率等)、碎石图、旋转后的因子载荷矩阵、因子得分系数矩阵等内容,结果表明这组数据有3个主成分(公因子)。