降维-主成分分析(PCA)

主成分分析(PCA)是一种降维技术,通过线性变换找到新的坐标系,使得样本在新坐标系下的方差最大化。PCA适用于高度相关的变量,通过保留主要成分来减少数据的维度并保留大部分信息。PCA的步骤包括计算相关系数矩阵、求解特征值和特征向量,以及根据特征值确定主成分个数。PCA广泛应用于回归分析、综合评价和数据可视化等领域。在Python的scikit-learn库中,PCA函数提供了一种便捷的实现方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的。由于多个纬度变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当这些纬度变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个提取的过程,……,直到提取足够多的信息为止。这就是主成分分析的思想。

主成分分析适用于原有纬度变量之间存在较高程度相关的情况。在主成分分析适用的场合,一般可以用较少的主成分得到较多的信息量,从而得到一个更低维的向量。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。一项十分著名的案例是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用3个新变量就取代了原17个变量。

一、主成分分析的几何意义

如果仅考虑 x1 x2 中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃 x1 x2 分量不是“降维”的有效办法。

这里写图片描述

对坐标轴进行旋转, n 个点在 F1 轴上的方差达到最大,即在此方向上包含了有关 n 个样本的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择 F1 轴方向能使信息的损失最小。

这里写图片描述

第一主成分的效果与椭圆的形状有关。椭圆越扁平, n 个点在 F1 轴上的方差就相对越大,在 F2 轴上的方差就相对越小,用第一主成分代替所有样品造成的信息损失就越小。原始变量不相关时,主成分分析没有效果

这里写图片描述

原始变量相关程度越高,主成分分析效果越好。
这里写图片描述

PCA的几何意义即是将原始坐标系进行旋转变换,然后将数据映射到新的坐标系,再根据一定标准去掉值较小的纬度,留下值较大的纬度–主成分。

二、主成分分析的数学模型

对于 p 维数据 xi=(xi1;xi2;;xip) ,假定投影变换后得到的新坐标系是 { w1,w2,,wp} ,其中 wi 是标准正交基向量( ||wi||2=0,wTiwj=0,ij )。若丢弃新坐标系中的部分坐标,即将数据维度降低到 p<p ,则样本点 xi 在低维新坐标系中的投影为 xi=(xi1;xi2;;xip) ,其中

xi1xi2x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值