多元高斯分布及其参数估计

多元高斯分布(Multivariate Gaussian Distribution)

多元高斯分布(或多元正态分布,Multivariate Gaussian Distribution)是一维高斯分布的推广,用于描述高维随机变量的分布情况。在机器学习、信号处理、统计学和模式识别等领域,多元高斯分布被广泛应用。


1. 多元高斯分布的概率密度函数(PDF)

对于 D D D 维随机向量 x = ( x 1 , x 2 , … , x D ) T \mathbf{x} = (x_1, x_2, \dots, x_D)^T x=(x1,x2,,xD)T,若其服从多元高斯分布,则它的概率密度函数(PDF)定义如下:
p ( x ∣ μ , Σ ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) p(xμ,Σ)=(2π)D/2Σ1/21exp(21(xμ)TΣ1(xμ))

其中:

  • x \mathbf{x} x D D D 维随机变量:
    x = [ x 1 x 2 ⋮ x D ] \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_D \end{bmatrix} x= x1x2xD
  • μ \boldsymbol{\mu} μ均值向量(Mean Vector)
    μ = E [ x ] = [ μ 1 μ 2 ⋮ μ D ] \boldsymbol{\mu} = E[\mathbf{x}] = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix} μ=E[x]= μ1μ2μD
    代表每个维度的中心位置。
  • Σ \mathbf{\Sigma} Σ协方差矩阵(Covariance Matrix)
    Σ = E [ ( x − μ ) ( x − μ ) T ] \mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T] Σ=E[(xμ)(xμ)T]
    其元素为:
    σ i j = E [ ( x i − μ i ) ( x j − μ j ) ] \sigma_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] σij=E[(xiμi)(xjμj)]
    • 对角元素 σ i i \sigma_{ii} σii(方差) 描述了变量 x i x_i xi方差,即 x i x_i xi 取值的分散程度
    • 非对角元素 σ i j \sigma_{ij} σij(协方差) 描述了变量 x i x_i xi x j x_j xj 之间的关系
      • σ i j > 0 \sigma_{ij} > 0 σij>0,表示两个变量正相关(一个增大,另一个也倾向于增大)。
      • σ i j < 0 \sigma_{ij} < 0 σij<0,表示两个变量负相关(一个增大,另一个倾向于减小)。
      • σ i j = 0 \sigma_{ij} = 0 σij=0,表示两个变量不相关

PDF 公式的解析

  • ∣ Σ ∣ |\mathbf{\Sigma}| Σ 是协方差矩阵的行列式(determinant),用于归一化以确保概率密度函数积分为1。
  • Σ − 1 \mathbf{\Sigma}^{-1} Σ1 是协方差矩阵的逆矩阵,用于描述变量之间的相关性。
  • 指数项
    − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) 21(xμ)TΣ1(xμ)
    称为二次型(quadratic form),它衡量了数据点 x \mathbf{x} x 到均值 μ \boldsymbol{\mu} μ马哈拉诺比斯距离(Mahalanobis Distance)
    d M ( x , μ ) = ( x − μ ) T Σ − 1 ( x − μ ) d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})} dM(x,μ)=(xμ)TΣ1(xμ)
    这个距离比欧几里得距离(Euclidean Distance)更适合用于高维空间,因为它考虑了数据的协方差结构。

2. 一维高斯分布是多元高斯分布的特例

D = 1 D = 1 D=1 时,多元高斯分布退化为一维高斯分布
p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)
此时:

  • 均值向量 μ = μ \boldsymbol{\mu} = \mu μ=μ
  • 协方差矩阵 Σ = σ 2 \mathbf{\Sigma} = \sigma^2 Σ=σ2

3. 参数估计(MLE)

3.1 估计均值向量

给定 N N N 个独立的 D D D 维样本:
x 1 , x 2 , … , x N \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N x1,x2,,xN
极大似然估计(MLE)用于找到最优均值和协方差矩阵,使得数据点的似然最大。

对于均值向量,MLE 估计值是样本均值
μ ^ = 1 N ∑ n = 1 N x n \hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_n μ^=N1n=1Nxn
解释

  • 计算 N N N 个样本的均值,得到每个维度的中心点。

3.2 估计协方差矩阵

协方差矩阵的 MLE 估计值是:
Σ ^ = 1 N ∑ n = 1 N ( x n − μ ^ ) ( x n − μ ^ ) T \hat{\mathbf{\Sigma}} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_n - \hat{\boldsymbol{\mu}}) (\mathbf{x}_n - \hat{\boldsymbol{\mu}})^T Σ^=N1n=1N(xnμ^)(xnμ^)T
解释

  • 计算所有样本相对于均值的偏差,然后取外积(outer product),求平均,得到协方差矩阵

3.3 协方差矩阵的性质

  1. 对称性 Σ \mathbf{\Sigma} Σ 是一个对称矩阵,即 σ i j = σ j i \sigma_{ij} = \sigma_{ji} σij=σji
  2. 半正定性(Semi-Positive Definiteness)
    • 对于任何非零向量 v \mathbf{v} v,都有:
      v T Σ v ≥ 0 \mathbf{v}^T \mathbf{\Sigma} \mathbf{v} \geq 0 vTΣv0
    • 这意味着协方差矩阵的所有特征值 λ \lambda λ 都是非负的( λ ≥ 0 \lambda \geq 0 λ0)。
  3. 可逆性(Invertibility)
    • Σ \mathbf{\Sigma} Σ 满秩(full-rank),则可逆,否则可能导致奇异性问题。

4. 直观理解

4.1 为什么使用协方差矩阵?

协方差矩阵不仅仅描述变量自身的方差,还描述了变量之间的相关性。例如:

  • x 1 x_1 x1 x 2 x_2 x2 具有正相关(即 x 1 x_1 x1 增大时, x 2 x_2 x2 也增大),则 σ 12 > 0 \sigma_{12} > 0 σ12>0
  • x 1 x_1 x1 x 2 x_2 x2 具有负相关(即 x 1 x_1 x1 增大时, x 2 x_2 x2 减小),则 σ 12 < 0 \sigma_{12} < 0 σ12<0
  • x 1 x_1 x1 x 2 x_2 x2 不相关,则 σ 12 = 0 \sigma_{12} = 0 σ12=0

4.2 为什么指数项是二次型?

( x − μ ) T Σ − 1 ( x − μ ) (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) (xμ)TΣ1(xμ)
这个二次型相当于计算马哈拉诺比斯距离,它考虑了数据的分布情况,而不是直接使用欧几里得距离。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值