文章目录
一元高斯分布的方差
考虑一元实值变量
x
x
x , 其高斯分布有如下定义:
N
(
x
∣
μ
,
σ
2
)
=
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
(
x
−
μ
)
2
}
(1.1)
\mathcal{N}\left( x|\mu ,\sigma ^2 \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} \tag{1.1}
N(x∣μ,σ2)=(2πσ2)211exp{−2σ21(x−μ)2}(1.1)
对于变量
x
x
x,其方差为:
v
a
r
[
x
]
=
E
[
x
2
]
−
E
[
x
]
2
var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^{2}
var[x]=E[x2]−E[x]2,前一项即为
x
x
x 的二阶原始矩:
E
[
x
2
]
=
∫
−
∞
∞
x
2
N
(
x
∣
μ
,
σ
2
)
d
x
=
∫
−
∞
∞
x
2
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
(
x
−
μ
)
2
}
d
x
(1.2)
\mathbb{E}\left[ x^2 \right] =\int_{-\infty}^{\infty}{x^2\mathcal{N}\left( x|\mu ,\sigma ^2 \right) dx}=\int_{-\infty}^{\infty}{x^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} dx} \tag{1.2}
E[x2]=∫−∞∞x2N(x∣μ,σ2)dx=∫−∞∞x2(2πσ2)211exp{−2σ21(x−μ)2}dx(1.2)
采用换元法,令
t
=
x
−
μ
t=x-\mu
t=x−μ ,即:
E
[
x
2
]
=
∫
−
∞
∞
(
t
+
μ
)
2
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
(
t
+
μ
)
=
∫
−
∞
∞
(
t
2
+
2
t
μ
+
μ
2
)
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
t
=
∫
−
∞
∞
t
2
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
t
+
μ
∫
−
∞
∞
t
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
t
+
μ
2
∫
−
∞
∞
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
t
(
1.3
)
\begin{aligned} \mathbb{E}\left[ x^2 \right]&=\int_{-\infty}^{\infty}{\left( t+\mu \right) ^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} d\left( t+\mu \right)}\\ &=\int_{-\infty}^{\infty}{\left( t^2+2t\mu +\mu ^2 \right) \frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}\\ &=\int_{-\infty}^{\infty}{t^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}+\mu \int_{-\infty}^{\infty}{t\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}+\mu ^2\int_{-\infty}^{\infty}{\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}\\ \end{aligned} (1.3)
E[x2]=∫−∞∞(t+μ)2(2πσ2)211exp{−2σ21t2}d(t+μ)=∫−∞∞(t2+2tμ+μ2)(2πσ2)211exp{−2σ21t2}dt=∫−∞∞t2(2πσ2)211exp{−2σ21t2}dt+μ∫−∞∞t(2πσ2)211exp{−2σ21t2}dt+μ2∫−∞∞(2πσ2)211exp{−2σ21t2}dt(1.3)
其中第二项中
t
N
(
t
∣
0
,
σ
2
)
t\mathcal{N}\left( t|0 ,\sigma ^2 \right)
tN(t∣0,σ2) 为奇函数,即积分为0;第三项
N
(
t
∣
0
,
σ
2
)
\mathcal{N}\left( t|0 ,\sigma ^2 \right)
N(t∣0,σ2)积分为1,第三项值为
μ
2
\mu^2
μ2;对于第一项,为了更直观的表示,依次采用两次换元法,令
t
=
2
σ
m
t=\sqrt{2}\sigma m
t=2σm 以及
y
=
m
2
y=m^2
y=m2,则:
∫
−
∞
∞
t
2
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
t
2
}
d
t
=
∫
−
∞
∞
(
2
σ
m
)
2
1
(
2
π
σ
2
)
1
2
exp
{
−
1
2
σ
2
(
2
σ
m
)
2
}
d
(
2
σ
m
)
=
∫
−
∞
∞
2
σ
2
π
m
2
e
−
m
2
d
m
=
∫
−
∞
∞
2
σ
2
π
y
e
−
y
d
y
=
2
∫
0
∞
σ
2
π
y
3
2
−
1
e
−
y
d
y
=
2
σ
2
π
Γ
(
3
2
)
=
σ
2
π
Γ
(
1
2
)
=
σ
2
(
1.4
)
\begin{aligned} \int_{-\infty}^{\infty}{t^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}t^2 \right\} dt}&=\int_{-\infty}^{\infty}{\left( \sqrt{2}\sigma m \right) ^2\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( \sqrt{2}\sigma m \right) ^2 \right\} d\left( \sqrt{2}\sigma m \right)}\\ &=\int_{-\infty}^{\infty}{\frac{2\sigma ^2}{\sqrt{\pi}}m^2e^{-m^2}dm}\\ &=\int_{-\infty}^{\infty}{\frac{2\sigma ^2}{\sqrt{\pi}}ye^{-y}d\sqrt{y}}\\ &=2\int_0^{\infty}{\begin{array}{c} \begin{array}{c} \frac{\sigma ^2}{\sqrt{\pi}}y^{\frac{3}{2}-1}e^{-y}dy\\ \end{array}\\ \end{array}}\\ &=\frac{2\sigma ^2}{\sqrt{\pi}}\Gamma \left( \frac{3}{2} \right) =\frac{\sigma ^2}{\sqrt{\pi}}\Gamma \left( \frac{1}{2} \right) =\sigma ^2\\ \end{aligned} (1.4)
∫−∞∞t2(2πσ2)211exp{−2σ21t2}dt=∫−∞∞(2σm)2(2πσ2)211exp{−2σ21(2σm)2}d(2σm)=∫−∞∞π2σ2m2e−m2dm=∫−∞∞π2σ2ye−ydy=2∫0∞πσ2y23−1e−ydy=π2σ2Γ(23)=πσ2Γ(21)=σ2(1.4)
则方差 v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^{2}={\sigma}^{2} var[x]=E[x2]−E[x]2=σ2
补充知识:
-
矩(moment)是对变量分布和形态特点的度量, n n n阶矩是指变量的n次方与其概率密度函数的乘积的积分,在文献中 n n n阶矩通常用符号 μ n \mu_{n} μn表示,直接使用变量计算的矩被称为原始矩(raw moment),移除均值后计算的矩被称为中心矩(central moment)。变量的一阶原始矩等价于数学期望,二至四阶中心矩被定义为方差,偏度和峰度。
u n ′ = ∫ x n P ( x ) d x (1.5) u_{n}^{\prime}=\int{x^n}P\left( x \right) dx \tag{1.5} un′=∫xnP(x)dx(1.5) -
Γ \Gamma Γ 函数定义为 Γ ( x ) = ∫ 0 ∞ u x − 1 e − x d x \Gamma \left( x \right) =\int_0^{\infty}{u^{x-1}e^{-x}dx} Γ(x)=∫0∞ux−1e−xdx,其具有两点重要性质:
- Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1)=x\Gamma(x) Γ(x+1)=xΓ(x)
- Γ ( 1 2 ) = π \Gamma(\frac{1}{2})=\sqrt{\pi} Γ(21)=π(可采用二重积分+夹逼定理求其平方值进行证明)
多元高斯分布的条件分布
假设 x \boldsymbol{x} x 是一个服从高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma}) N(x∣μ,Σ)的 D D D维向量,把 x \boldsymbol{x} x划分为不相交的子集 x a , x b \boldsymbol{x_a},\boldsymbol{x_b} xa,xb ,有
x = ( x a x b ) \boldsymbol{x}=\left( \begin{array}{c} \boldsymbol{x}_a\\ \boldsymbol{x}_b\\ \end{array} \right) x=(xaxb)
μ = ( μ a μ b ) \boldsymbol{\mu}=\left( \begin{array}{c} \boldsymbol{\mu}_a\\ \boldsymbol{\mu}_b\\ \end{array} \right) μ=(μaμb)
Σ = ( Σ a a Σ a b Σ b a Σ b b ) \mathbf{\Sigma }=\left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) Σ=(ΣaaΣbaΣabΣbb)
其中
Σ
T
=
Σ
\mathbf{\Sigma}^{T}=\mathbf{\Sigma}
ΣT=Σ,则
Σ
b
a
T
=
Σ
a
b
\mathbf{\Sigma}_{ba}^{T}=\mathbf{\Sigma}_{ab}
ΣbaT=Σab,同时可以使用精度矩阵方便表达:
Λ
≡
Σ
−
1
\mathbf{\Lambda } \equiv \mathbf{\Sigma}^{-1}
Λ≡Σ−1
为了求条件分布函数
p
(
x
a
∣
x
b
)
p(\boldsymbol{x}_{a}|\boldsymbol{x}_{b})
p(xa∣xb),考虑概率的乘积问题,即
p
(
x
a
∣
x
b
)
=
p
(
x
a
,
x
b
)
p
(
x
b
)
p(\boldsymbol{x}_{a}|\boldsymbol{x}_{b})=\frac{p(\boldsymbol{x}_{a}, \boldsymbol{x}_{b})}{p(\boldsymbol{x}_{b})}
p(xa∣xb)=p(xb)p(xa,xb)
为了方便计算,我们可以简化常数项的部分,即
p ( x a , x b ) p ( x b ) = C x a , x b C x b exp ( 1 2 ( x b − μ b ) T Σ b b − 1 ( x b − μ b ) − 1 2 ( ( x a − μ a ) T , ( x b − μ b ) T ) ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( x a − μ a x a − μ a ) ) ( 1.6 ) \frac{p(\boldsymbol{x}_a,\boldsymbol{x}_b)}{p(\boldsymbol{x}_b)}=\frac{C_{\boldsymbol{x}_a,\boldsymbol{x}_b}}{C_{\boldsymbol{x}_b}}\exp \left( \frac{1}{2}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) -\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \end{array} \right) \right) (1.6) p(xb)p(xa,xb)=CxbCxa,xbexp(21(xb−μb)TΣbb−1(xb−μb)−21((xa−μa)T,(xb−μb)T)(ΣaaΣbaΣabΣbb)−1(xa−μaxa−μa))(1.6)
重点分析函数内第二项,该项的核心部分为协方差矩阵的逆,由于 x b \boldsymbol{x_b} xb是条件项,应尽可能保留 Σ b b \mathbf{\Sigma}_{bb} Σbb,即可以通过初等变换简化该项形式,具体如下:
( I − Σ a b Σ b b − 1 0 I ) ( Σ a a Σ a b Σ b a Σ b b ) ( I 0 − Σ b b − 1 Σ b a I ) = ( Σ a a − Σ a b Σ b b − 1 Σ b a 0 0 Σ b b ) ( 1.7 ) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) =\left( \begin{matrix} \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) (1.7) (I0−ΣabΣbb−1I)(ΣaaΣbaΣabΣbb)(I−Σbb−1Σba0I)=(Σaa−ΣabΣbb−1Σba00Σbb)(1.7)
由形式可知,等号两边取逆:
( I 0 − Σ b b − 1 Σ b a I ) − 1 ( Σ a a Σ a b Σ b a Σ b b ) − 1 ( I − Σ a b Σ b b − 1 0 I ) − 1 = ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 0 0 Σ b b − 1 ) ( 1.8 ) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) ^{-1}\left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) ^{-1}=\left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) (1.8) (I−Σbb−1Σba0I)−1(ΣaaΣbaΣabΣbb)−1(I0−ΣabΣbb−1I)−1=((Σaa−ΣabΣbb−1Σba)−100Σbb−1)(1.8)
( Σ a a Σ a b Σ b a Σ b b ) − 1 = ( I 0 − Σ b b − 1 Σ b a I ) ( ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 0 0 Σ b b − 1 ) ( I − Σ a b Σ b b − 1 0 I ) ( 1.9 ) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}=\left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) (1.9) (ΣaaΣbaΣabΣbb)−1=(I−Σbb−1Σba0I)((Σaa−ΣabΣbb−1Σba)−100Σbb−1)(I0−ΣabΣbb−1I)(1.9)
此时:
−
1
2
(
(
x
a
−
μ
a
)
T
,
(
x
b
−
μ
b
)
T
)
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
−
1
(
x
a
−
μ
a
x
b
−
μ
b
)
=
−
1
2
(
(
x
a
−
μ
a
)
T
,
(
x
b
−
μ
b
)
T
)
(
I
0
−
Σ
b
b
−
1
Σ
b
a
I
)
(
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
0
0
Σ
b
b
−
1
)
(
I
−
Σ
a
b
Σ
b
b
−
1
0
I
)
(
x
a
−
μ
a
x
b
−
μ
b
)
=
−
1
2
(
(
x
a
−
μ
a
)
T
,
(
x
b
−
μ
b
)
T
)
(
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
−
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
Σ
a
b
Σ
b
b
−
1
−
Σ
b
b
−
1
Σ
b
a
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
Σ
b
b
−
1
+
Σ
b
b
−
1
Σ
b
a
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
Σ
a
b
Σ
b
b
−
1
)
(
x
a
−
μ
a
x
b
−
μ
b
)
=
−
1
2
(
x
b
−
μ
b
)
T
Σ
b
b
−
1
(
x
b
−
μ
b
)
−
1
2
(
x
a
−
μ
a
−
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
)
T
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
(
x
a
−
μ
a
−
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
)
(
1.10
)
-\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{\Sigma }_{aa}& \mathbf{\Sigma }_{ab}\\ \mathbf{\Sigma }_{ba}& \mathbf{\Sigma }_{bb}\\ \end{matrix} \right) ^{-1}\left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \mathbf{I}& \mathbf{0}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{0}\\ \mathbf{0}& \mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{matrix} \mathbf{I}& -\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \mathbf{0}& \mathbf{I}\\ \end{matrix} \right) \left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \left( \boldsymbol{x}_a-\boldsymbol{\mu }_a \right) ^{\mathbf{T}},\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}} \right) \left( \begin{matrix} \left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& -\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ -\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}& \mathbf{\Sigma }_{bb}^{-1}+\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\\ \end{matrix} \right) \left( \begin{array}{c} \boldsymbol{x}_a-\boldsymbol{\mu }_a\\ \boldsymbol{x}_b-\boldsymbol{\mu }_b\\ \end{array} \right) \\ =-\frac{1}{2}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) ^{\mathbf{T}}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) -\frac{1}{2}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) ^{\mathbf{T}}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) (1.10)
−21((xa−μa)T,(xb−μb)T)(ΣaaΣbaΣabΣbb)−1(xa−μaxb−μb)=−21((xa−μa)T,(xb−μb)T)(I−Σbb−1Σba0I)((Σaa−ΣabΣbb−1Σba)−100Σbb−1)(I0−ΣabΣbb−1I)(xa−μaxb−μb)=−21((xa−μa)T,(xb−μb)T)((Σaa−ΣabΣbb−1Σba)−1−Σbb−1Σba(Σaa−ΣabΣbb−1Σba)−1−(Σaa−ΣabΣbb−1Σba)−1ΣabΣbb−1Σbb−1+Σbb−1Σba(Σaa−ΣabΣbb−1Σba)−1ΣabΣbb−1)(xa−μaxb−μb)=−21(xb−μb)TΣbb−1(xb−μb)−21(xa−μa−ΣabΣbb−1(xb−μb))T(Σaa−ΣabΣbb−1Σba)−1(xa−μa−ΣabΣbb−1(xb−μb))(1.10)
因此:
p
(
x
a
,
x
b
)
p
(
x
b
)
=
−
1
2
(
x
a
−
μ
a
−
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
)
T
(
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
)
−
1
(
x
a
−
μ
a
−
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
)
(
1.11
)
\frac{p(\boldsymbol{x}_a,\boldsymbol{x}_b)}{p(\boldsymbol{x}_b)}= -\frac{1}{2}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) ^{\mathbf{T}}\left( \mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \right) ^{-1}\left( \boldsymbol{x}_a-\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \right) (1.11)
p(xb)p(xa,xb)=−21(xa−μa−ΣabΣbb−1(xb−μb))T(Σaa−ΣabΣbb−1Σba)−1(xa−μa−ΣabΣbb−1(xb−μb))(1.11)
注意到条件概率分布其实是一个高斯分布,满足:
μ
a
∣
b
=
μ
a
−
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
(1.12)
\boldsymbol{\mu}_{a|b}=\boldsymbol{\mu }_a-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\left( \boldsymbol{x}_b-\boldsymbol{\mu }_b \right) \tag{1.12}
μa∣b=μa−ΣabΣbb−1(xb−μb)(1.12)
Σ a ∣ b = Σ a a − Σ a b Σ b b − 1 Σ b a (1.13) \boldsymbol{\Sigma}_{a|b}=\mathbf{\Sigma }_{aa}-\mathbf{\Sigma }_{ab}\mathbf{\Sigma }_{bb}^{-1}\mathbf{\Sigma }_{ba} \tag{1.13} Σa∣b=Σaa−ΣabΣbb−1Σba(1.13)
其中可以看出均值是 x b \boldsymbol{x}_b xb 的线性函数,协方差与其无关。该式说明已知协方差矩阵和 x b \boldsymbol{x}_b xb 可以求出 x a \boldsymbol{x}_a xa 的分布。
本文深入探讨了一元高斯分布的方差计算,通过换元法证明了方差等于σ²。接着,详细阐述了多元高斯分布的条件分布,展示了如何在已知一部分变量的情况下,计算剩余变量的条件概率分布,揭示了条件概率分布也是一个高斯分布,并给出了均值和协方差的表达式。
890

被折叠的 条评论
为什么被折叠?



