主成分分析(PCA)原理详解

相关背景
在许多领域的研究和实际应用中,为了深入理解事物的本质和寻找潜在规律,研究者们经常需要对多个变量进行大量的观测和数据收集。这些多变量大样本的数据集虽然为分析提供了丰富的信息基础,但同时也带来了数据采集的高工作量和数据处理的复杂性。特别是当这些变量之间存在一定程度的相关性时,问题分析的难度会显著增加,因为单独分析每个指标往往难以提供全面而综合的见解。
 因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。

PCA降维实例
假设我们有一个包含四个二维数据点的数据集,数据点如下:

A(1, 2)
B(2, 3)
C(3, 1)
D(4, 2)
这些点分布在二维平面上,但我们的目标是使用PCA降维方法将它们映射到一条直线上,从而实现从二维到一维的降维。

以下是PCA降维的详细步骤:

1.数据预处理:
首先,我们需要将原始数据按列组成矩阵X。在本例中,矩阵X为:
1 2  
2 3  
3 1  
4 2
接着,对X矩阵的每一行进行零均值化,即减去该行的均值。计算得到每行的均值分别为2、2.25、2、2.5,零均值化后的数据为:
-1       0  
-0.25  0.75  
1         -1  
1.5      -0.5
2.求协方差矩阵及其特征值和特征向量:
计算零均值化后的数据的协方差矩阵C。在本例中,C为:
0.6875  0.3125  
0.3125  0.6875
接着,求解协方差矩阵C的特征值和特征向量。特征值λ1和λ2分别为1和0.375,对应的特征向量v1和v2分别为[0.707, 0.707]和[-0.707, 0.707](已归一化)。
3.选择主成分并构建新的坐标系:
选择特征值较大的特征向量作为新的坐标系的基向量。在本例中,我们选择λ1对应的特征向量v1作为新的坐标系的基向量。
数据降维:
将原始数据投影到新的坐标系上,即计算原始数据与基向量的点积,得到降维后的数据。在本例中,降维后的数据为原始数据矩阵与v1的点积,即:
[-1 * 0.707 + 0 * 0.707, ...] = [-0.707, ...]  
[-0.25 * 0.707 + 0.75 * 0.707, ...] = [0.4607, ...]  
[1 * 0.707 + (-1) * 0.707, ...] = [0, ...]  
[1.5 * 0.707 + (-0.5) * 0.707, ...] = [0.707, ...]
由此,我们得到了降维后的一维数据:[-0.707, 0.4607, 0, 0.707]。
结果解释:
通过PCA降维,我们将原始二维数据成功降维到一维,同时尽可能地保留了数据中的主要信息。在这个例子中,新的一维数据可以看作是原始数据在最大方差方向(即主成分)上的投影。
通过上述实例,我们可以清晰地看到PCA降维的过程和效果,以及它在简化数据表示、降低计算复杂性方面的作用。

PCA推导
首先,我们考虑一个二维的场景,这里仅涉及两个变量,它们分别由横坐标和纵坐标来代表。因此,每个观测值都在这两个坐标轴上具有相应的坐标值。如果这些数据在二维平面上形成了一个椭圆形状的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值