一种将具有相关性的数据投影到另一空间,且投影得到的特征向量互不相干的方法叫做主成份分析。PCA最大程度保留了原始高维的总体方差,也就是把数据向方差最大的方向投影,所以它的重建误差也是最小的。
协方差:(x代表一个样本数据,它是一个d-维向量,xi与xj代表不同的样本数据)
协方差矩阵:
推导过程:
假设原样本数据x投影到一个单位向量a上,投影结果是
(向量的投影:,由于投影方向为单位向量,则
,即
)
最终得到的投影结果的方差最大,即使得var(z)最大。
其中S代表协方差矩阵。
求最大投影方向:在限制条件下,使
最大(拉格朗日乘数法)
经过计算,得到投影方向a是矩阵方向S最大特征根对应的特征向量。
计算方法:
1.有m个d-维数据,每个d维数据表示为列向量,将列向量拼成m列。得到d行m列的矩阵。
2.计算协方差矩阵。
3.计算S的特征值和特征向量
。(
)
4.选取前k个最大特征根对应的特征向量,得到矩阵
5.AX相乘得到投影矩阵。