多元高斯分布(Multivariate Gaussian Distribution)
多元高斯分布(或多元正态分布,Multivariate Gaussian Distribution)是一维高斯分布的推广,用于描述高维随机变量的分布情况。在机器学习、信号处理、统计学和模式识别等领域,多元高斯分布被广泛应用。
1. 多元高斯分布的概率密度函数(PDF)
对于
D
D
D 维随机向量
x
=
(
x
1
,
x
2
,
…
,
x
D
)
T
\mathbf{x} = (x_1, x_2, \dots, x_D)^T
x=(x1,x2,…,xD)T,若其服从多元高斯分布,则它的概率密度函数(PDF)定义如下:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
D
/
2
∣
Σ
∣
1
/
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
p(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)
p(x∣μ,Σ)=(2π)D/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中:
-
x
\mathbf{x}
x 是
D
D
D 维随机变量:
x = [ x 1 x 2 ⋮ x D ] \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_D \end{bmatrix} x= x1x2⋮xD -
μ
\boldsymbol{\mu}
μ 是均值向量(Mean Vector):
μ = E [ x ] = [ μ 1 μ 2 ⋮ μ D ] \boldsymbol{\mu} = E[\mathbf{x}] = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix} μ=E[x]= μ1μ2⋮μD
代表每个维度的中心位置。 -
Σ
\mathbf{\Sigma}
Σ 是协方差矩阵(Covariance Matrix):
Σ = E [ ( x − μ ) ( x − μ ) T ] \mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T] Σ=E[(x−μ)(x−μ)T]
其元素为:
σ i j = E [ ( x i − μ i ) ( x j − μ j ) ] \sigma_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] σij=E[(xi−μi)(xj−μj)]- 对角元素 σ i i \sigma_{ii} σii(方差) 描述了变量 x i x_i xi 的方差,即 x i x_i xi 取值的分散程度。
- 非对角元素
σ
i
j
\sigma_{ij}
σij(协方差) 描述了变量
x
i
x_i
xi 和
x
j
x_j
xj 之间的关系:
- 若 σ i j > 0 \sigma_{ij} > 0 σij>0,表示两个变量正相关(一个增大,另一个也倾向于增大)。
- 若 σ i j < 0 \sigma_{ij} < 0 σij<0,表示两个变量负相关(一个增大,另一个倾向于减小)。
- 若 σ i j = 0 \sigma_{ij} = 0 σij=0,表示两个变量不相关。
PDF 公式的解析:
- ∣ Σ ∣ |\mathbf{\Sigma}| ∣Σ∣ 是协方差矩阵的行列式(determinant),用于归一化以确保概率密度函数积分为1。
- Σ − 1 \mathbf{\Sigma}^{-1} Σ−1 是协方差矩阵的逆矩阵,用于描述变量之间的相关性。
- 指数项:
− 1 2 ( x − μ ) T Σ − 1 ( x − μ ) -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) −21(x−μ)TΣ−1(x−μ)
称为二次型(quadratic form),它衡量了数据点 x \mathbf{x} x 到均值 μ \boldsymbol{\mu} μ 的马哈拉诺比斯距离(Mahalanobis Distance):
d M ( x , μ ) = ( x − μ ) T Σ − 1 ( x − μ ) d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})} dM(x,μ)=(x−μ)TΣ−1(x−μ)
这个距离比欧几里得距离(Euclidean Distance)更适合用于高维空间,因为它考虑了数据的协方差结构。
2. 一维高斯分布是多元高斯分布的特例
当
D
=
1
D = 1
D=1 时,多元高斯分布退化为一维高斯分布:
p
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
此时:
- 均值向量: μ = μ \boldsymbol{\mu} = \mu μ=μ
- 协方差矩阵: Σ = σ 2 \mathbf{\Sigma} = \sigma^2 Σ=σ2
3. 参数估计(MLE)
3.1 估计均值向量
给定
N
N
N 个独立的
D
D
D 维样本:
x
1
,
x
2
,
…
,
x
N
\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N
x1,x2,…,xN
极大似然估计(MLE)用于找到最优均值和协方差矩阵,使得数据点的似然最大。
对于均值向量,MLE 估计值是样本均值:
μ
^
=
1
N
∑
n
=
1
N
x
n
\hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_n
μ^=N1n=1∑Nxn
解释:
- 计算 N N N 个样本的均值,得到每个维度的中心点。
3.2 估计协方差矩阵
协方差矩阵的 MLE 估计值是:
Σ
^
=
1
N
∑
n
=
1
N
(
x
n
−
μ
^
)
(
x
n
−
μ
^
)
T
\hat{\mathbf{\Sigma}} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_n - \hat{\boldsymbol{\mu}}) (\mathbf{x}_n - \hat{\boldsymbol{\mu}})^T
Σ^=N1n=1∑N(xn−μ^)(xn−μ^)T
解释:
- 计算所有样本相对于均值的偏差,然后取外积(outer product),求平均,得到协方差矩阵。
3.3 协方差矩阵的性质
- 对称性: Σ \mathbf{\Sigma} Σ 是一个对称矩阵,即 σ i j = σ j i \sigma_{ij} = \sigma_{ji} σij=σji。
- 半正定性(Semi-Positive Definiteness):
- 对于任何非零向量
v
\mathbf{v}
v,都有:
v T Σ v ≥ 0 \mathbf{v}^T \mathbf{\Sigma} \mathbf{v} \geq 0 vTΣv≥0 - 这意味着协方差矩阵的所有特征值 λ \lambda λ 都是非负的( λ ≥ 0 \lambda \geq 0 λ≥0)。
- 对于任何非零向量
v
\mathbf{v}
v,都有:
- 可逆性(Invertibility):
- 若 Σ \mathbf{\Sigma} Σ 满秩(full-rank),则可逆,否则可能导致奇异性问题。
4. 直观理解
4.1 为什么使用协方差矩阵?
协方差矩阵不仅仅描述变量自身的方差,还描述了变量之间的相关性。例如:
- 若 x 1 x_1 x1 和 x 2 x_2 x2 具有正相关(即 x 1 x_1 x1 增大时, x 2 x_2 x2 也增大),则 σ 12 > 0 \sigma_{12} > 0 σ12>0。
- 若 x 1 x_1 x1 和 x 2 x_2 x2 具有负相关(即 x 1 x_1 x1 增大时, x 2 x_2 x2 减小),则 σ 12 < 0 \sigma_{12} < 0 σ12<0。
- 若 x 1 x_1 x1 和 x 2 x_2 x2 不相关,则 σ 12 = 0 \sigma_{12} = 0 σ12=0。
4.2 为什么指数项是二次型?
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})
(x−μ)TΣ−1(x−μ)
这个二次型相当于计算马哈拉诺比斯距离,它考虑了数据的分布情况,而不是直接使用欧几里得距离。