协方差与协方差矩阵

本文深入探讨了主成分分析(PCA)中协方差矩阵的计算与应用,详细解释了协方差与相关系数的概念,以及它们在评估多维随机变量线性相关性中的作用。同时,介绍了如何通过样本数据估计协方差矩阵,为理解PCA提供坚实的数学基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言:

最近在看主成成分分析(PCA),其中有一步是计算样本各维度的协方差矩阵。

先找些资料复习总结如下:

协方差:

 通常,提到方差时需要对其进一步区分。(1)随机变量的协方差。跟数学期望,方差一样,

是分布的一个总体参数。(2)样本的协方差。是样本集的一个统计量,可作为联合分布总体参数的

一个估计。在实际中计算的通常是样本的协方差。

在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量

越线性相关,协方差越大, 两个变量完全线性无关,协方差为零。定义如下:

                                               

 当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。

                            

由于随机变量的取值范围不同,两个协方差不具备可比性。如X,Y,Z分别是三个随机变量,

想要比较X与Y的线性相关程度强,还是X与Z的线性相关程度强,通过cov(X,Y)与cov(X,Z)

无法直接比较。定义相关系数:

                                                   

通过X的方差var(X)var⁡(X)与Y的方差var(Y)var⁡(Y)对协方差cov(X,Y)cov⁡(X,Y)归一化,得到相关系数η,η的取值范围是[−1,1][−1,1]。1表示完全线性相关,−1表示完全线性负相关,0表示线性无关。线性无关并不代表完全无关,更不代表相互独立。

 

样本的协方差:

在实际中,通常我们手头会有一些样本,样本有多个属性,每个样本可以看成一个多维随机变量

的样本点,我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系

的参数,由于不知道具体分布,只能通过样本来进行估计。

 

协方差矩阵( 多维随机变量的协方差矩阵)

 

样本的协方差矩阵:

 

 

 

 

 

 

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值