理解多维高斯分布

前言

在数理统计和机器学习中,经常用到高斯分布,这里根据网上的资源和理解,对多维高斯分布做一个小总结。如有谬误,请联系指正。转载请注明出处。

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

QQ: 973926198

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号
qrcode


一维高斯分布

标准的一维高斯分布是0均值和单位方差的,数学形式如(1):
p ( x ) = 1 2 π e x p ( − x 2 2 ) (1) p(x) = \frac{1}{\sqrt {2\pi}} exp(-\frac{x^2}{2}) \tag{1} p(x)=2π 1exp(2x2)(1)
为了扩展成一般的一维高斯分布,我们引入一个线性变换 x : = A ( x − μ ) x := A(x-\mu) x:=A(xμ),结合(1),有:
p ( x ) = ∣ A ∣ 2 π e x p ( − A 2 ( x − μ ) 2 2 ) (2) \begin{aligned} p(x) &= \frac{|A|}{\sqrt{2\pi}} exp(-\frac{A^2(x-\mu)^2}{2}) \\ \end{aligned} \tag{2} p(x)=2π Aexp(2A2(xμ)2)(2)
σ = 1 / A \sigma=1/A σ=1/A,式(2)变为:
p ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 2 σ 2 ) (3) p(x) = \dfrac{1}{\sigma\sqrt{2\pi}} exp(-\frac{(x-\mu)^2}{2\sigma^2}) \tag{3} p(x)=σ2π 1exp(2σ2(xμ)2)(3)
从这里可以看出 A A A σ \sigma σ存在关系。在系数前乘上 ∣ A ∣ |A| A是为了整个分布的积分为1。这里的 ∣ ⋅ ∣ |\cdot| 表示绝对值,在多变量下,则表示行列式。

在一维高斯分布上,通过调整均值 μ \mu μ和方差 σ 2 \sigma^2 σ2可以调整分布的形状,使得其向左右平移,或者拉伸其"顶峰"。

这里写图片描述

多维高斯分布

多维高斯分布其变量为 n n n维变量,每个变量之间可能会存在关系,为了描述这种关系,我们引入了协方差矩阵 Σ \Sigma Σ,其大小为 n × n n \times n n×n,其中每一个元素为:
Σ i , j = c o n v ( X i , X j ) = E ( X i X j ) − E ( X i ) E ( E j ) (4) \begin{aligned} \Sigma_{i,j} &= conv(X_i, X_j) \\ &= E(X_iX_j)-E(X_i)E(E_j) \end{aligned} \tag{4} Σi,j=conv(Xi,Xj)=E(XiXj)E(Xi)E(Ej)(4)

我们首先看看标准二维高斯分布的数学表达式(5),因为是标准二维高斯分布,所以每个变量之间是独立的:
p ( x , y ) = p ( x ) p ( y ) = 1 2 π e x p ( − x 2 + y 2 2 ) (5) p(x,y) = p(x)p(y) = \frac{1}{2\pi} exp(-\frac{x^2+y^2}{2}) \tag{5} p(x,y)=p(x)p(y)=2π1exp(2x2+y2)(5)
为了向量化公式,用向量 v = [ x    y ] T \textbf{v}=[x \ \ y]^T v=[x  y]T,有:
p ( v ) = 1 2 π e x p ( − 1 2 v T v ) (6) p(\textbf{v}) = \frac{1}{2\pi} exp(-\frac{1}{2} \textbf{v}^T\textbf{v}) \tag{6} p(v)=2π1exp(21vTv)(6)
这个时候,用 v = A ( x − μ ) \textbf{v} = \textbf{A}(\textbf{x}-\mu) v=A(xμ),其中的 A \textbf{A} A v \textbf{v} v中每个分量的线性组合系数,也就是说 A \textbf{A} A表示了每个变量的线性关系。有:
p ( v ) = ∣ A ∣ 2 π e x p ( − 1 2 ( x − μ ) T A T A ( x − μ ) ) (7) p(\textbf{v}) = \frac{|\textbf{A}|}{2\pi} exp(-\frac{1}{2} (\textbf{x}-\mu)^T \textbf{A}^T \textbf{A} (\textbf{x}-\mu)) \tag{7} p(v)=2πAexp(21(xμ)TATA(xμ))(7)
Σ = ( A T A ) − 1 \Sigma=(\textbf{A}^T\textbf{A})^{-1} Σ=(ATA)1表示其协方差,其中 ∣ A ∣ |\textbf{A}| A为行列式,有:
p ( v ) = 1 2 π ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) (8) p(\textbf{v}) = \frac{1}{2\pi |\Sigma|^{1/2}} exp(-\frac{1}{2}(\textbf{x}-\mu)^T \Sigma^{-1} (\textbf{x}-\mu)) \tag{8} p(v)=2πΣ1/21exp(21(xμ)TΣ1(xμ))(8)
当维度大于2时,情形类似, n n n维的高斯分布公式为:
p ( v ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) v ∈ R n (9) p(\textbf{v}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} exp(-\frac{1}{2}(\textbf{x}-\mu)^T \Sigma^{-1} (\textbf{x}-\mu)) \\ \textbf{v} \in \mathbb{R}^n \tag{9} p(v)=(2π)n/2Σ1/21exp(21(xμ)TΣ1(xμ))vRn(9)

多维高斯分布的图像性质

这里写图片描述
以上三个图形的期望都为: μ = [ 0 , 0 ] T \mu =[0,0]^T μ=[0,0]T,最左端图形的协方差 Σ = I \Sigma=I Σ=I,中间的 Σ = 0.6 I \Sigma=0.6I Σ=0.6I,最右端的 Σ = 2 I \Sigma=2I Σ=2I,我们可以看出:当变小时,图像变得更加“瘦长”,而当增大时,图像变得更加“扁平”。

这里写图片描述

Reference

  1. 斯坦福大学机器学习——高斯判别分析
  2. 多维高斯分布是如何由一维发展而来的?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FesianXu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值