后验概率的参数化近似
为便于推导,先对 p ( x i ∣ Z , π ) p(x_i|Z,\pi) p(xi∣Z,π)公式引入变量 y i y_i yi, y i = 1 y_i=1 yi=1意味第ℹ次测量为内点, y i = 0 y_i=0 yi=0意味第ℹ次测量为外点,
定义
X
=
(
x
1
,
.
.
.
,
x
n
)
X=(x_1,...,x_n)
X=(x1,...,xn),
Y
=
(
y
1
,
.
.
.
,
y
n
)
Y=(y_1,...,y_n)
Y=(y1,...,yn),
p
(
y
i
∣
π
)
=
π
y
i
(
1
−
π
)
1
−
y
i
p(y_i|\pi)=\pi^{y_i}(1-\pi)^{1-{y_i}}
p(yi∣π)=πyi(1−π)1−yi
设
π
\pi
π与
Z
Z
Z独立,则有如下联合分布概率
p
(
X
,
Y
,
Z
,
π
)
=
[
∏
i
=
1
n
p
(
x
i
∣
Z
,
π
,
y
n
)
p
(
y
i
∣
π
)
]
p
(
Z
)
p
(
π
)
p(X,Y,Z,\pi)=[\prod^n_{i=1}p(x_i|Z,\pi,y_n)p(y_i|\pi)]p(Z)p(\pi)
p(X,Y,Z,π)=[i=1∏np(xi∣Z,π,yn)p(yi∣π)]p(Z)p(π)
后验概率可表示为 q ( Y , Z , π ∣ X ) q(Y,Z,\pi|X) q(Y,Z,π∣X)
令
q
(
Y
,
Z
,
π
)
q(Y,Z,\pi)
q(Y,Z,π)是后验概率
q
(
Y
,
Z
,
π
∣
X
)
q(Y,Z,\pi|X)
q(Y,Z,π∣X)的近似,并假设满足
q
(
Y
,
Z
,
π
)
=
q
y
(
Y
)
q
Z
,
π
(
Z
,
π
)
q(Y,Z,\pi)=q_y(Y)q_{Z,\pi}(Z,\pi)
q(Y,Z,π)=qy(Y)qZ,π(Z,π)
现在,寻找一个近似
q
(
Y
,
Z
,
π
)
q(Y,Z,\pi)
q(Y,Z,π)的分布,满足与真实后验的KL散度最小,由Pattern Recognition And Machine Learning 第10.1.1章节,待求的分布
q
Z
,
π
(
Z
,
π
)
q_{Z,\pi}(Z,\pi)
qZ,π(Z,π)要满足,
ln
q
Z
,
π
(
Z
,
π
)
=
E
y
[
ln
p
(
X
,
Y
,
Z
,
π
)
]
+
c
o
n
s
t
\ln q_{Z,\pi}(Z,\pi)=E_y[\ln p(X,Y,Z,\pi)]+const
lnqZ,π(Z,π)=Ey[lnp(X,Y,Z,π)]+const
E y [ ∗ ] E_y[*] Ey[∗]表示分布 q y ( Y ) q_y(Y) qy(Y)的期望。
则后验概率可推导为下式所近似
q
(
Z
,
π
∣
a
n
,
b
n
,
μ
n
,
σ
n
)
:
=
B
e
t
a
(
π
∣
a
n
,
b
n
)
N
(
Z
∣
μ
n
,
σ
n
2
)
q(Z,\pi|a_n,b_n,\mu_n,\sigma_n):=Beta(\pi|a_n,b_n)N(Z|\mu_n,\sigma^2_n)
q(Z,π∣an,bn,μn,σn):=Beta(π∣an,bn)N(Z∣μn,σn2)
其中,
B
e
t
a
(
π
∣
a
n
,
b
n
)
Beta(\pi|a_n,b_n)
Beta(π∣an,bn)为Beta分布,
a
n
a_n
an,
b
n
b_n
bn分别为观测的内外点的概率计数,
μ
n
\mu_n
μn,
σ
n
2
\sigma^2_n
σn2是高斯深度估计的期望与方差。
设
n
−
1
n-1
n−1次测量后,后验概率为
q
(
Z
,
π
∣
a
n
−
1
,
b
n
−
1
,
μ
n
−
1
,
σ
n
−
1
)
q(Z,\pi|a_{n-1},b_{n-1},\mu_{n-1},\sigma_{n-1})
q(Z,π∣an−1,bn−1,μn−1,σn−1),获得第
n
n
n次测量后更新的后验概率为:
C
p
(
x
n
∣
Z
,
π
)
q
(
Z
,
π
∣
a
n
−
1
,
b
n
−
1
,
μ
n
−
1
,
σ
n
−
1
)
Cp(x_{n}|Z,\pi)q(Z,\pi|a_{n-1},b_{n-1},\mu_{n-1},\sigma_{n-1})
Cp(xn∣Z,π)q(Z,π∣an−1,bn−1,μn−1,σn−1)
其中,C为某常数,此时分布已不再是Gaussian x Beta分布,较复杂,但可利用1、2阶矩去匹配近似成Gaussian x Beta分布,按此思路不断更新,实验验证可收敛到真值附近。