如何直观地理解「协方差矩阵」?

本文深入浅出地解析了协方差矩阵的概念,从几何角度解释了方差和协方差的意义,通过多元正态分布和线性变换展示了协方差矩阵的特征值分解过程,帮助读者直观理解其在统计学和机器学习中的应用。

如何直观地理解「协方差矩阵」?

372 人 赞同了该文章
协方差矩阵在统计学和机器学习中随处可见,一般而言,可视作 方差协方差两部分组成,即方差构成了对角线上的元素,协方差构成了非对角线上的元素。本文旨在从几何角度介绍我们所熟知的协方差矩阵。

文章结构

  1. 方差和协方差的定义
  2. 从方差/协方差到协方差矩阵
  3. 多元正态分布与线性变换
  4. 协方差矩阵的特征值分解


1. 方差和协方差的定义


在统计学中, 方差是用来度量 单个随机变量离散程度,而协方差则一般用来刻画 两个随机变量相似程度,其中, 方差的计算公式为
[公式]
其中, [公式] 表示样本量,符号 [公式] 表示观测样本的均值,这个定义在初中阶段就已经开始接触了。


在此基础上,协方差的计算公式被定义为

[公式]

在公式中,符号 [公式] 分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差 [公式] 可视作随机变量 [公式] 关于其自身的协方差 [公式] .

2. 从方差/协方差到协方差矩阵


根据方差的定义,给定 [公式] 个随机变量 [公式] ,则这些随机变量的方差

[公式]

其中,为方便书写, [公式] 表示随机变量 [公式] 中的第 [公式] 个观测样本, [公式] 表示样本量,每个随机变量所对应的观测样本数量均为 [公式]


对于这些随机变量,我们还可以根据协方差的定义,求出两两之间的协方差,即

[公式]


因此,协方差矩阵

[公式]

其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定:矩阵 [公式]对称矩阵(symmetric matrix),其大小为 [公式]

3. 多元正态分布与线性变换


假设一个向量 [公式] 服从均值向量为 [公式] 、协方差矩阵为 [公式] 的多元正态分布(multi-variate Gaussian distribution),则
[公式]


令该分布的均值向量为 [公式] ,由于指数项外面的系数 [公式] 通常作为常数,故可将多元正态分布简化为

[公式]


再令 [公式] ,包含两个随机变量 [公式][公式] ,则协方差矩阵可写成如下形式:

[公式]


单位矩阵(identity matrix) [公式] 作为协方差矩阵,随机变量 [公式][公式]方差均为1,则生成如干个随机数如图1所示。

图1 标准的二元正态分布

在生成的若干个随机数中,每个点的似然为

[公式]


对图1中的所有点考虑一个线性变换(linear transformation): [公式] ,我们能够得到图2.

图2 经过线性变换的二元正态分布,先将图1的纵坐标压缩0.5倍,再将所有点逆时针旋转30°得到。


在线性变换中,矩阵 [公式] 被称为变换矩阵(transformation matrix),为了将图1中的点经过线性变换得到我们想要的图2,其实我们需要构造两个矩阵:

  • 尺度矩阵(scaling matrix):

[公式]

  • 旋转矩阵(rotation matrix)

[公式]

其中, [公式]顺时针旋转的度数


变换矩阵、尺度矩阵和旋转矩阵三者的关系式:
[公式]


在这个例子中,尺度矩阵为 [公式] ,旋转矩阵为 [公式][公式] ,故变换矩阵为

[公式] .


另外,需要考虑的是,经过了线性变换, [公式] 的分布是什么样子呢

[公式] 带入前面给出的似然 [公式] ,有

[公式]

[公式]


由此可以得到,多元正态分布的协方差矩阵为

[公式] [公式] .


4. 协方差矩阵的特征值分解


回到我们已经学过的线性代数内容,对于任意对称矩阵 [公式] ,存在一个 特征值分解(eigenvalue decomposition, EVD)

[公式]

其中, [公式]的每一列都是相互正交的特征向量,且是单位向量,满足 [公式][公式]对角线上的元素是从大到小排列的特征值,非对角线上的元素均为0。


当然,这条公式在这里也可以很容易地写成如下形式:

[公式]

其中, [公式] ,因此,通俗地说,任意一个协方差矩阵都可以视为线性变换的结果


在上面的例子中,特征向量构成的矩阵

[公式] .

特征值构成的矩阵

[公式] .


到这里,我们发现:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation)特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置,在图1和图2中,均值向量为 [公式] ,因此,概率密度的中心位于坐标原点。

相关参考:

Understanding the Covariance Matrix janakiev.com图标 What is the Covariance Matrix? fouryears.eu

编辑于 2018-06-12
统计学
线性代数
机器学习
赞同 372​ 29 条评论
分享
收藏
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200221165653252.jpg)
<think> 我们正在讨论协方差矩阵理解。用户要求理解协方差矩阵的含义,并且我们有一些引用材料。根据引用,协方差矩阵在统计学和机器学习中非常重要,它由方差和协方差组成。方差在对角线上,协方差在非对角线上。我们可以从几何角度来理解它。 首先,回顾一下协方差的定义:协方差衡量两个变量的总体误差。如果两个变量是正相关的,那么协方差为正;负相关的,协方差为负;如果相互独立,协方差为零(但要注意,协方差为零不一定独立,独立则协方差为零)。 协方差矩阵则是多个变量之间的协方差的矩阵表示。假设我们有n个变量(例如,n维随机向量),那么协方差矩阵是一个n×n的矩阵,其中第(i,j)个元素是第i个变量和第j个变量的协方差。 我们可以按照以下步骤来理解: 1. 单变量的情况:单变量时,协方差矩阵就是方差(一个1×1的矩阵),它表示数据的离散程度。 2. 两个变量的情况:假设有两个变量X和Y,它们的协方差矩阵为: $$ \begin{bmatrix} \text{Var}(X) & \text{Cov}(X,Y) \\ \text{Cov}(Y,X) & \text{Var}(Y) \end{bmatrix} $$ 其中,$\text{Var}(X)$是X的方差,$\text{Cov}(X,Y)$是X和Y的协方差。由于协方差具有对称性,$\text{Cov}(X,Y)=\text{Cov}(Y,X)$。 3. 几何意义:协方差矩阵可以看作是对数据分布的描述。对于一个多维随机向量,其协方差矩阵的特征向量描述了数据分布的主要方向,特征值则描述了数据在这些方向上的伸展程度。具体来说,最大特征值对应的特征向量方向是数据方差最大的方向(主方向),而最小特征值对应的方向是数据方差最小的方向。 4. 与多元高斯分布的关系:在多元高斯分布中,协方差矩阵决定了概率密度函数的形状。均值向量决定中心位置,协方差矩阵决定椭球的方向和大小。 5. 计算方式:假设我们有一个样本矩阵X,其中每一行是一个样本,每一列是一个特征(变量)。首先,对每个特征进行中心化(减去该特征的均值),得到中心化后的矩阵。然后,协方差矩阵可以通过以下公式计算: $$ \Sigma = \frac{1}{n-1} X^T X $$ 这里,$n$是样本数量,$X$是中心化后的数据矩阵。 6. 理解协方差矩阵的几何意义:我们可以将数据点视为多维空间中的点集,协方差矩阵的特征向量就是这些点构成的椭球体的主轴方向,特征值则对应各主轴的长度(即数据在该方向上的方差)。因此,协方差矩阵的特征值分解可以揭示数据的内部结构。 下面,我们通过一个二维的例子来直观说明: 假设我们有一组二维数据,其协方差矩阵为: $$ \Sigma = \begin{bmatrix} 5 & -3 \\ -3 & 4 \end{bmatrix} $$ 我们可以计算其特征值和特征向量: 特征值:$\lambda_1=7, \lambda_2=2$(通过解特征方程$|\Sigma-\lambda I|=0$) 特征向量:$v_1=[1, -1]^T$(归一化后为$[\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}]^T$),$v_2=[1,1]^T$(归一化后为$[\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}]^T$) 这意味着数据在方向$v_1$上的方差为7,在方向$v_2$上的方差为2。因此,数据分布的主要方向是$v_1$方向。 总结:协方差矩阵提供了数据各维度之间的关系(相关性)以及各个维度上的分散程度。通过分析协方差矩阵,我们可以了解数据的主要变化方向(主成分分析就是基于此)。 引用说明:根据引用[2],协方差矩阵可视作由方差和协方差两部分组成;引用[5]给出了计算方式:中心化后计算$X^TX/(n-1)$;引用[4]提到了其在多元高斯分布中的重要性。 下面,我们生成相关问题。 </think> ### 如何理解协方差矩阵 协方差矩阵是统计学和机器学习中的核心概念,用于描述多个随机变量之间的相关性和离散程度。其含义可从以下角度深入理解: --- #### 1. **基础定义** 对于一个 $p$ 维随机向量 $\boldsymbol{X} = (X_1, X_2, \dots, X_p)^T$,其协方差矩阵 $\Sigma$ 定义为: $$\Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{bmatrix}$$ 其中对角线元素 $\sigma_{ii} = \text{Var}(X_i)$ 为方差,非对角线元素 $\sigma_{ij} = \text{Cov}(X_i,X_j)$ 为协方差[^2][^5]。 --- #### 2. **几何直观解释** 假设二维数据点集服从正态分布协方差矩阵决定其分布形状: - **对角线元素** $\sigma_{11}, \sigma_{22}$:控制数据在 $x$ 轴和 $y$ 轴方向的“拉伸”程度 (值越大,数据越分散) - **非对角线元素** $\sigma_{12}=\sigma_{21}$:控制数据分布的方向性 (正值:正相关,呈右上升椭圆;负值:负相关,呈右下降椭圆) <div align=center> <img src="https://miro.medium.com/v2/resize:fit:1400/1*lC0sPv5sDdI5u0LijxPmAA.png" width="45%"> <img src="https://www.researchgate.net/publication/358275597/figure/fig1/AS:1114230881550337@1643360710075/Figure-1-The-vector-representation-of-the-covariance-matrix_Q320.jpg" width="45%"> </div> --- #### 3. **数学本质** 给定中心化后的样本矩阵 $X$ (每行为一个样本,每列为一个特征),协方差矩阵可通过矩阵运算直接求得: $$\Sigma = \frac{1}{n-1} X^T X$$ 这一表达式揭示了协方差矩阵的本质:**特征空间的内积矩阵**,描述不同维度间的线性相关性[^1][^5]。 --- #### 4. **关键性质** | 性质 | 数学表达 | 解释 | |------|----------|------| | **对称性** | $\Sigma = \Sigma^T$ | 协方差矩阵始终是对称矩阵 | | **半正定性** | $\boldsymbol{v}^T \Sigma \boldsymbol{v} \geq 0$ | 特征值非负,保证概率密度合理 | | **特征值分解** | $\Sigma = Q \Lambda Q^{-1}$ | 特征向量指向主方向,特征值等于该方向方差 | | **缩放不变性** | $\text{Cov}(A\boldsymbol{X}) = A \Sigma A^T$ | 线性变换后仍保持协方差结构[^3][^4] | --- #### 5. **实际计算示例** 假设身高($X_1$)和体重($X_2$)的样本数据: | 样本 | $X_1$ (cm) | $X_2$ (kg) | |------|------------|------------| | 1 | 170 | 65 | | 2 | 180 | 75 | | 3 | 160 | 55 | 计算步骤: 1. 中心化:$X_1' = X_1 - 170$, $X_2' = X_2 - 65$ 2. 构建矩阵 $X = \begin{bmatrix} 0 & 0 \\ 10 & 10 \\ -10 & -10 \end{bmatrix}$ 3. 协方差矩阵: $$\Sigma = \frac{1}{3-1} X^T X = \begin{bmatrix} 100 & 100 \\ 100 & 100 \end{bmatrix}$$ 4. 解读:身高体重强正相关($\sigma_{12}=100$),方差均为 $100$[^5]. --- #### 6. **核心应用场景** - **主成分分析(PCA)**:通过特征值分解降维 - **多元高斯分布**:定义概率密度函数 $p(\boldsymbol{x}) \propto \exp\left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)$ - **卡尔曼滤波**:描述状态估计的不确定性 - **金融风险建模**:量化资产间的波动关联[^4] > 关键洞见:协方差矩阵本质是**数据分布的指纹**,同时编码了各维度的离散度(方差)和维度间的相关性(协方差)[^2][^3]。 --- ### 相关问题 1. 协方差矩阵为何必须是半正定矩阵?如何检验其正定性? 2. 在主成分分析(PCA)中,协方差矩阵的特征值分解如何实现降维? 3. 当样本量小于特征维度时,协方差矩阵的计算会出现什么问题?如何解决? 4. 相关系数矩阵与协方差矩阵有何区别与联系? [^1]: 协方差矩阵的计算需明确维度定义(行/列对应样本或特征) [^2]: 协方差矩阵的几何解释及与多元正态分布的关系 [^3]: 协方差矩阵的数学推导与性质分析 [^4]: 协方差矩阵在高斯分布和高斯过程中的核心作用 [^5]: 协方差矩阵的实用计算方式与散布矩阵的等价性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值