主成成分分析简介

主成成分分析(PCA)是一种数据降维方法,通过线性组合原变量形成新的不相关主成分,最大化保留信息。PCA的主要任务包括确定主成分的表达式和计算主成分载荷。它用于降低数据维度、揭示变量间关系、图形表示高维数据、构建回归模型和筛选回归变量。协方差矩阵和相关系数矩阵在PCA中起到关键作用,皮尔逊积差系数衡量变量间的线性关系。

1.背景

     在sift特征之后,有一种PCA-sift的特征提取,其基本原理和步骤和sift是基本一样的,只是在特征子描述方面,由sift的128维特征描述,利用主成成分分析的方法,降为了36维的特征描述子。下面就简单介绍一些主成成分分析的相关信息。


2.基本原理

       主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

       设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。


根据以上分析得知:

    (1)Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵。

    (2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。

F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。


    由以上分析可见,主成分分析法的主要任务有两点:

   (1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2 ,…, p)的表达式,即系数( i=1,2,…,m; j=1,2 ,…,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数,为了加以限制,系数启用的是对应的单位化的特征向量,即有= 1。

   (2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度:    

### SPSS 中的因子分析主成分分析 #### 因子分析简介 因子分析旨在识别潜在变量(即因子),这些潜变量可以解释观测到的数据中的共变关系。通过减少维度,因子分析可以帮助研究者理解复杂数据集背后的结构。 #### 主成分分析简介 主成分分析(PCA)是一种用于探索性数据分析的技术,它试图在尽可能保留原有信息的情况下降低数据集的维度。具体来说,PCA会找到一系列新的正交轴——成分,它们依次最大化剩余方差[^2]。 #### 使用SPSS执行主成分分析的过程 1. **打开文件并导入数据** 启动SPSS程序后加载要处理的数据文件。确保数据已经过清理并且适合做PCA分析。 2. **启动PCA过程** 转至`Analyze -> Dimension Reduction -> Factor...` 3. **配置选项** 将感兴趣的数值型变量移入Variables框内。点击Descriptives按钮勾选Initial solution, KMO and Bartlett's test of sphericity等项以评估适用性和质量。 4. **提取方法设定** 返回对话框,切换到Extraction标签页。这里可以选择基于特征根大于1的标准自动决定保留多少个成分,也可以手动指定数量。另外建议开启Scree plot以便直观判断最佳组件数。 5. **旋转方案选择** 如果希望获得更容易解释的结果,则可以在Rotation页面挑选一种合适的斜交或直交旋转法如Varimax简化模式表达形式。 6. **保存新变量** 到Scores部分可让软件自动生代表各成分的新列加入原表供后续利用。 7. **查看输出结果** 关闭窗口运行命令后仔细审查产生的报表文档,特别是Total Variance Explained表格了解每个PC所占比例以及Component Matrix展示原始测量指标同最终选定元间的关联强度。 8. **绘制图表辅助说明** 可视化工具对于传达发现至关重要。尝试制作散点图矩阵或者雷达图形来呈现个体间相对位置变化趋势。 ```spss FACTOR /VARIABLES=varlist /* 替换为实际使用的变量列表 */ /MISSING=LISTWISE /ANALYSIS=varlist /PRINT=INITIAL EXTRACTION ROTATION /FORMAT=SORT BLANK(.30) /CRITERIA=EIGENVALUE(1) ITERATE(25) /EXTRACTION=PC /ROTATION=VARIMAX /SAVE REG(ALL). ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值