探索性因子分析:原理、操作与应用
1. 因子分析简介
因子分析是一种数据简化技术,与以往测试总体差异的假设检验不同,也和回归分析中基于过去观测值估计未知值的预测方程构建不同。它的主要目的是减少研究中的变量数量,通过合并近似测量同一事物的变量来实现数据简化。在数学过程中,会使用皮尔逊相关系数来确定变量之间关系的强度。可以将两个重叠的圆看作两个独立变量,它们的交集就是一个新的因子,代表了原始两个变量共同测量的内容,这个交集区域从技术上讲就是共享方差。
因子分析主要有两种基本类型:
- 描述性(通常也称为探索性)
- 验证性
这里主要探讨描述性/探索性因子分析,其中最常见的方法是主成分分析。主成分分析旨在发现变量背后尚未被识别的潜在结构(因子或成分),将多个显变量(manifest variables)简化为更小的聚类或成分,以总结数据。
在进行因子分析前,需要了解一些专业术语:
-
因子提取(Factor Extraction)
:SPSS 通过数学算法从变量中找出最少数量的因子,以代表所有变量之间的关系。
-
因子载荷(Factor Loading)
:指每个变量与新创建的独立因子(成分)之间的相关性,使用皮尔逊相关系数计算,范围从 +1 到 -1。
-
共同度(Communalities)
:表示原始变量的变异性中由高载荷因子解释的比例。
-
特征值(Eigenvalue)
:指定原始变量的变异量可归因于特定因子的数值,用于帮助确定要选择的因子数量。
-
因子旋转(Factor Rotation)
:是因子分析过程中的一个可选步骤,有多种旋转方法,如斜交旋转(用于相关因子)和正交旋转(用于不相关因子),目的是重新排列因子载荷,使每个变量在特定因子上的载荷最大化,而在其他因子上的载荷最小化。
-
碎石图(Scree Plot)
:可以在 SPSS 程序中请求生成,它用图形绘制新生成因子的特征值,有助于确定合适的因子数量。
2. 研究场景与测试选择
为了演示因子分析,使用 SPSS 示例文件“bankloan.sav”。该数据库包含 850 个过去和潜在客户的虚构数据,旨在探索银行如何减少贷款违约数量。数据库中有 10 个尺度水平的变量,基于此数据量和变量情况,认为因子分析是描述和探索可观测数据结构的合适统计工具,主要采用主成分分析方法。
3. 研究问题与零假设
研究问题是:在正在分析的 10 个显变量中,可能识别出多少个成分(潜在变量)?如果识别出成分,如何解释它们?
零假设是:不存在潜在的底层结构,所有变量的载荷相同。
4. 数据输入、分析与输出解释
以下是使用 SPSS 进行因子分析的具体操作步骤:
1. 启动 SPSS,点击“File”,选择“Open”,然后点击“Data”(打开“Open Data”窗口)。
2. 在 C 盘找到并打开“bankloan.sav”文件(若需要帮助,可参考相关说明)。
3. 点击“Analyze”,选择“Dimension Reduction”,然后点击“Factor”。
4. 点击并将所有尺度变量移动到“Variable”框中。
5. 点击“Descriptives”(打开“Factor Analysis: Descriptives”窗口)。
6. 点击“Variable descriptions”,确保“Initial Solutions”已被勾选。
7. 在“Correlation Matrix”面板中,勾选“Coefficients”、“Significance levels”和“KMO and Bartlett’s test of sphericity”。
8. 点击“Continue”(返回“Factor Analysis”窗口)。
9. 点击“Extraction”。
10. 确保“Principal components”显示在“Method”部分。
11. 在“Analyze”面板中点击“Correlation matrix”,并确保“Unrotated factor solution”和“Scree plot”在“Display”面板中被勾选。在“Extract”面板中,确保“Based on eigenvalue”被点击,且“Eigenvalues greater than:”旁边框中的值为 1。
12. 点击“Continue”。
13. 点击“Rotation”(打开“Factor Analysis: Rotation”窗口),在“Methods”面板中点击“Varimax”,然后点击“Continue”。
14. 点击“OK”(打开“Output Viewer”显示分析结果)。
SPSS 输出结果的解释如下:
-
描述性统计表格(Descriptives Statistics table)
:检查输入的变量是否正确以及案例数量是否准确。
-
相关矩阵(Correlation Matrix)
:用于筛选数据,因子分析中希望变量之间有较高的相关性,一般认为相关系数超过 0.30 较好。
-
KMO 和 Bartlett 的球形检验(KMO and Bartlett’s test of sphericity)
:
- KMO 检验值大于 0.6 表示数据适合进行因子分析,此次分析中 KMO 值为 0.717。
- Bartlett 的球形检验的卡方值为 10,175.535,自由度为 45,显著性水平为 0.000,表明数据适合因子分析。
-
共同度表格(Communalities)
:显示每个变量的共同度,例如“Age in years”变量的共同度为 0.614,意味着该变量 61.4% 的方差可以由高载荷因子(特征值 > 1 的成分)解释。
-
总方差解释表格(Total Variance Explained)
:展示了 10 个新成分的特征值及其对应的方差解释比例。例如,成分 1 的特征值为 4.010,相当于所有 10 个变量总方差的 40.095%;成分 2 的特征值为 3.301,占总方差的 33.104%,两者共同解释了 73.109% 的总方差。
-
碎石图(Scree Plot)
:以特征值为 y 轴,10 个成分为 x 轴绘制图形。通常选择“肘部”以上的成分,在此案例中是成分 1 和 2,这进一步支持了双成分解决方案。
-
成分矩阵(Component Matrix)
:显示特征值为 1.0 或更高的成分的因子载荷值,这些值的解释方式与相关系数相同,可用于为新创建的成分命名。
-
旋转成分矩阵(Rotated Component Matrix)
:在分析中请求了 Varimax 旋转后生成,此次分析中旋转前后的矩阵变化不大。
通过对银行贷款数据的分析,确定了两个潜在变量(成分):
-
成分 1:“债务违约”(Debt to Default)
:高载荷变量都与“债务”相关,从“债务收入比”到“预测违约”。
-
成分 2:“负责任的债务人”(Responsible Debtor)
:高载荷变量测量“责任”特征,如年龄、稳定就业、持续居住和家庭收入等。
以下是操作流程的 mermaid 流程图:
graph LR
A[启动 SPSS] --> B[打开 Data 文件]
B --> C[找到并打开 bankloan.sav]
C --> D[点击 Analyze - Dimension Reduction - Factor]
D --> E[移动尺度变量到 Variable 框]
E --> F[点击 Descriptives]
F --> G[勾选相关选项]
G --> H[点击 Continue]
H --> I[点击 Extraction]
I --> J[设置提取参数]
J --> K[点击 Continue]
K --> L[点击 Rotation]
L --> M[选择 Varimax 旋转]
M --> N[点击 Continue]
N --> O[点击 OK 查看结果]
操作步骤列表总结:
|步骤|操作|
|----|----|
|1|启动 SPSS,打开数据文件|
|2|找到并打开 bankloan.sav|
|3|选择因子分析功能|
|4|移动变量到指定框|
|5|设置描述性统计选项|
|6|设置因子提取参数|
|7|选择旋转方法|
|8|完成分析并查看结果|
因子分析是一种强大的研究工具,通过以上步骤和解释,希望能帮助读者初步了解主成分因子分析的原理和操作,鼓励读者使用自己的数据库进行实践。
探索性因子分析:原理、操作与应用
5. 总结与回顾
在上述银行贷款数据的因子分析中,我们完成了从数据选择、输入,到分析以及结果解释的整个过程。主要使用了主成分分析这一探索性因子分析方法,成功识别出两个潜在变量(成分),它们共同解释了大部分的变量方差。这一结果为理解银行贷款数据的潜在结构提供了有价值的信息。
总结来看,因子分析作为一种描述性/探索性统计工具,其核心在于通过数据简化,揭示变量背后的潜在结构。在实际应用中,需要注意数据的适用性,包括变量的测量水平、样本数量以及变量之间的相关性等因素。
6. 复习练习
为了帮助读者进一步掌握因子分析的应用,下面提供几个复习练习。
6.1 练习一:使用 customer_dbase.sav 文件
- 数据信息 :该数据库包含 5000 个案例和 132 个变量。
-
操作要求
:
- 选择前 10 个尺度变量。
- 提出零假设和备择假设。零假设可以设定为不存在潜在的底层结构,所有变量的载荷相同;备择假设则为存在潜在的底层结构。
- 打开数据库,选择主成分因子分析方法。
- 搜索这 10 个变量中的潜在因子,尝试将其简化为更小的聚类(成分)。
操作步骤如下:
1. 启动 SPSS,打开“customer_dbase.sav”文件。
2. 点击“Analyze”,选择“Dimension Reduction”,然后点击“Factor”。
3. 选择前 10 个尺度变量并移动到“Variable”框中。
4. 按照之前介绍的设置方法,进行描述性统计、因子提取、旋转等设置。
5. 点击“OK”查看分析结果,并解释结果。
6.2 练习二:使用 customer_dbase.sav 文件中的宠物所有权变量
- 数据信息 :同样使用“customer_dbase.sav”数据库,这次关注第 29 到 36 个尺度变量,这些变量与宠物所有权相关。
-
操作要求
:
- 提出零假设和备择假设。
- 选择合适的分析程序,进行主成分因子分析。
- 检查初始统计数据,如相关矩阵、KMO 和 Bartlett 检验等。
- 解释分析结果,确定潜在变量并为其命名。
操作步骤与练习一类似,只是变量选择不同,重点关注第 29 到 36 个尺度变量。
6.3 练习三:使用 telco.sav 文件
- 数据信息 :该数据库有 1000 个案例和 22 个尺度水平的变量。
-
操作要求
:
- 选择前 16 个尺度变量(直到“wireten/wireless over tenure”,第 25 个变量)。
- 提出零假设和备择假设。
- 选择主成分因子分析方法进行分析。
- 确定是否存在潜在因子,以实现数据简化。
操作步骤如下:
1. 启动 SPSS,打开“telco.sav”文件。
2. 点击“Analyze”,选择“Dimension Reduction”,然后点击“Factor”。
3. 选择前 16 个尺度变量并移动到“Variable”框中。
4. 进行描述性统计、因子提取、旋转等设置。
5. 点击“OK”查看结果并解释。
7. 总结与展望
因子分析作为一种重要的统计方法,在数据简化和潜在结构挖掘方面具有显著优势。通过对多个变量的整合和分析,可以揭示出隐藏在数据背后的信息,为研究和决策提供有力支持。
在实际应用中,需要根据具体的研究问题和数据特点,合理选择因子分析的方法和参数。同时,要注意数据的质量和适用性,通过各种检验确保分析结果的可靠性。
未来,随着数据量的不断增加和数据分析需求的多样化,因子分析可能会与其他统计方法和机器学习技术相结合,发挥更大的作用。例如,与聚类分析结合可以进一步对潜在变量进行分类,与回归分析结合可以构建更准确的预测模型。
希望读者通过本文的介绍和练习,能够掌握因子分析的基本原理和操作方法,并在实际研究中灵活运用。不断探索和实践,才能更好地发挥因子分析的价值,发现数据中的更多奥秘。
以下是练习操作步骤的 mermaid 流程图:
graph LR
A[选择练习数据文件] --> B[启动 SPSS 打开文件]
B --> C[选择合适变量]
C --> D[提出假设]
D --> E[点击 Analyze - Dimension Reduction - Factor]
E --> F[设置分析参数]
F --> G[点击 OK 查看结果]
G --> H[解释结果]
练习操作步骤总结表格:
|练习编号|数据文件|变量选择|操作步骤|
|----|----|----|----|
|1|customer_dbase.sav|前 10 个尺度变量|启动 SPSS 打开文件,选择变量,设置参数,查看并解释结果|
|2|customer_dbase.sav|第 29 - 36 个尺度变量|启动 SPSS 打开文件,选择变量,设置参数,查看并解释结果|
|3|telco.sav|前 16 个尺度变量|启动 SPSS 打开文件,选择变量,设置参数,查看并解释结果|
通过以上练习和总结,读者可以更深入地理解因子分析的应用,不断提升数据分析能力。
超级会员免费看

被折叠的 条评论
为什么被折叠?



