No.1 方差、协方差、协方差矩阵
方差
- 方差提供的是样本中数据与均值在数值上差距的情况信息,通俗的说就是样本数据集不集中。
s2=∑ni=1(xi−x⎯⎯⎯)2n−1‾‾‾‾‾‾‾‾‾‾‾‾‾‾√s2=∑i=1n(xi−x¯)2n−1
协方差
协方差反映的是不同类型的两组样本数据之间的关系。
例如:cov的值为正数,说明正相关-> x越怎样,y就越怎样;cov的值为负数,说明负相关:x越怎样,y就越不怎样;cov的值为0,则说明没有关系。cov(X,Y)=∑ni=1(xi−x¯)(yi−y¯)n−1cov(X,Y)=∑i=1n(xi−x¯)(yi−y¯)n−1协方差矩阵则反映的是三个及以上的样本数据组之间的相关性信息。
协方差矩阵主对角线上是方差信息,其他反映的是协方差信息,且各样本数据两两之间的相关信息均可以从协方差矩阵里面读出来。C=⎧⎩⎨⎪⎪cov(x1,x1)cov(x2,x1)cov(x3,x1)cov(x1,x2)cov(x2,x2)cov(x3,x2)cov(x1,x3)cov(x2,x3)cov(x3,x3)⎫⎭⎬⎪⎪C={cov(x1,x1)cov(x1,x2)cov(x1,x3)cov(x2,x1)cov(x2,x2)cov(x2,x3)cov(x3,x1)cov(x3,x2)cov(x3,x3)}
NO.2 主成分分析
先明白这几个概念:
- 数据样本:具有p个采样所关心特性的一类事物的数值描述,例如:人的身高、体重、性别、居住地等特性的数据组合。那么一个人的这些数据的组合叫一个样本。每个特性就是一个变量,记为:Xi(i=1,2,3,…,p)Xi(i=1,2,3,…,p),每个XiXi包含n个数据,n即为样本数据的个数。
标准化指z_score规范化(正态化),即将原始数据处理成均值为0,方差为1的标准数据,此时XiXi变为ZiZi。方法如下:
zij=xij−xj¯σj(i,j=1,2,3,…,n)zij=xij−xj¯σj(i,j=1,2,3,…,n)
(1) xijxij表示第i个数据样本的第j个指标;
(2) xj¯xj¯表示所有n个数据样本的第j个指标的值的平均值;
(3 σjσj表示第j个指标的标准差;相关矩阵就是相关系数矩阵
1.经标准化的样本数据zijzij的协方差矩阵就是原始样本数据的相关矩阵rijrij,其中 i,j=1,2,3,…,pi,j=1,2,3,…,p ,计算协方差时,不再考虑n个样本数,而是考虑成ZiZi变量之间的关系。
2.相关矩阵是对称矩阵,其一定是满秩,故一定有p个特征值λi(i=1,2,3,…,p)λi(i=1,2,3,…,p),p个特征向量ei(i=1,2,3,…,p)ei(i=1,2,3,…,p),即一个特征值对应一个特征向量。
3.特征向量 ei=(ei1,ei2,…,eij,…,eip)ei=(ei1,ei2,…,eij,…,eip),其中eijeij表示eiei的第j维上的分量,满足∑pj=1e2ij=1∑j=1peij2=1,即‖ei‖=1‖ei‖=1。(说明已经正交化)
主成分分析所关心的几个概念
方差贡献率:λk∑pk=1λkλk∑k=1pλk、累计方差贡献率:∑ik=1λk∑pk=1λk(i=1,2,3,…,p)∑k=1iλk∑k=1pλk(i=1,2,3,…,p)
目的:为了确定综合变量个数m,取累计方差贡献>85%时候的个数主成分表达式:Yi=∑pj=1eij⋅Zj(i,j=1,2,3,…,n)Yi=∑j=1peij⋅Zj(i,j=1,2,3,…,n)