-
协方差
1.协方差
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y):
2.协方差矩阵
设为n维随机变量,称矩阵:
为n维随机变量X的协方差矩阵,其中为X的分量
和
的协方差。
-
意义
在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。
-
数学模型
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X 1 ,X 2 ,...,X p ,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F 1 ,F 2 ,...,F k (k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。
-
推导
设X的协方差矩阵为,由于
为非负定的对称阵,必存在正交阵U,使得
其中为
的特征根,不妨假设
,而U恰好是由特征根相对应的特征向量所组成的正交阵:
,这里,由U的第一列元素
所构成为原是变量的线性组合有最大的方差:
有最大的方差
,因为
第二主成分即在约束条件下,
。
-
PCA算法
输入:样本集,低维空间维数
过程:
- 对所有样本进行中心化:
- 计算样本的协方差矩阵
- 对协方差矩阵
做特征值分解
- 取最大的
个特征值所对应的特征向量
输出:投影矩阵