伯努利分布( B e r n o u l l i d i s t r i b u t i o n Bernoulli\;distribution Bernoullidistribution)
考虑简单的二元随机变量
x
∈
{
0
,
1
}
x\in\{0,1\}
x∈{0,1},其概率分布有:
p
(
x
=
1
∣
μ
)
=
μ
p(x=1|\mu)=\mu
p(x=1∣μ)=μ;
p
(
x
=
0
∣
μ
)
=
1
−
μ
p(x=0|\mu)=1-\mu
p(x=0∣μ)=1−μ
则 x x x 的概率分布为伯努利分布( B e r n o u l l i d i s t r i b u t i o n Bernoulli\;distribution Bernoullidistribution),为: B e r n ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \displaystyle Bern(x|\mu)=\mu^x(1-\mu)^{1-x} Bern(x∣μ)=μx(1−μ)1−x;
其期望和方差为:
E
[
x
]
=
μ
\mathbb E[x]=\mu
E[x]=μ;
v
a
r
[
x
]
=
μ
(
1
−
μ
)
var[x]=\mu(1-\mu)
var[x]=μ(1−μ);
现有
x
x
x 的观察值数据集
D
=
{
x
1
,
x
2
,
⋯
,
x
N
}
\mathcal D=\{x_1,x_2,\cdots,x_N\}
D={x1,x2,⋯,xN},
x
i
x_i
xi 为独立同分布,则可构建关于
μ
\mu
μ(待估计值)的似然函数:
p
(
D
∣
μ
)
=
∏
n
=
1
N
p
(
x
n
∣
μ
)
=
∏
n
=
1
N
μ
x
n
(
1
−
μ
)
(
1
−
x
n
)
\displaystyle p(\mathcal D|\mu)=\prod^N_{n=1}p(x_n|\mu)=\prod^N_{n=1}\mu^{x_n}(1-\mu)^{(1-x_n)}
p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)(1−xn),
其中, μ x n ( 1 − μ ) ( 1 − x n ) = { μ , i f x n = 1 1 − μ , e l s e \displaystyle\mu^{x_n}(1-\mu)^{(1-x_n)}=\left\{ \begin{aligned} \mu, & & {if\,\,x_n=1}\\ 1-\mu, & & {else}\\ \end{aligned} \right. μxn(1−μ)(1−xn)={μ,1−μ,ifxn=1else
二项分布( b i n o m i a l d i s t r i b u t i o n binomial\; distribution binomialdistribution)
将 N 个样本加起来,得到
x
=
1
x=1
x=1 的样本个数为 m,则有二项分布:
B
i
n
(
m
∣
N
,
μ
)
=
(
N
m
)
μ
m
(
1
−
μ
)
N
−
m
\displaystyle Bin(m|N,\mu)=\left ( \begin{matrix} N \\ m \\ \end{matrix} \right )\mu^m(1-\mu)^{N-m}
Bin(m∣N,μ)=(Nm)μm(1−μ)N−m,其中
(
N
m
)
=
N
!
(
N
−
m
)
!
m
!
\left ( \begin{matrix} N \\ m \\ \end{matrix} \right )=\displaystyle\frac{N!}{(N-m)!m!}
(Nm)=(N−m)!m!N!;
其期望和方差为:
E
[
m
]
=
∑
m
=
0
N
m
⋅
B
i
n
(
m
∣
N
,
μ
)
=
N
μ
\displaystyle\mathbb E[m]=\sum^N_{m=0}m\cdot Bin(m|N,\mu)=N\mu
E[m]=m=0∑Nm⋅Bin(m∣N,μ)=Nμ;
v a r [ m ] = E [ ( m − E [ m ] ) 2 ] = ∑ m = 0 N ( m − E [ m ] ) 2 ⋅ B i n ( m ∣ N , μ ) = N μ ( 1 − μ ) \displaystyle var[m]=\mathbb E[(m-\mathbb E[m])^2]=\sum^N_{m=0}(m-\mathbb E[m])^2\cdot Bin(m|N,\mu)=N\mu(1-\mu) var[m]=E[(m−E[m])2]=m=0∑N(m−E[m])2⋅Bin(m∣N,μ)=Nμ(1−μ);
注意,伯努利实验就是做一次服从伯努利概率分布的事件,而二项分布是多次伯努利分布实验的概率分布。
贝塔分布( b e t a d i s t r i b u t i o n beta\; distribution betadistribution)
选定先验为贝塔分布,参数 a,b为控制
μ
\mu
μ 分布的超参数:
B
e
t
a
(
μ
∣
a
,
b
)
=
Γ
(
a
+
b
)
Γ
(
a
)
Γ
(
b
)
μ
a
−
1
(
1
−
μ
)
b
−
1
\displaystyle Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)μa−1(1−μ)b−1,
其中伽马分布
Γ
(
x
)
=
{
(
x
−
1
)
!
,
i
f
x
是
正
整
数
∫
0
∞
t
x
−
1
e
−
t
d
t
,
i
f
x
是
实
数
部
分
为
正
的
复
数
\displaystyle \Gamma(x)=\left\{ \begin{aligned} (x-1)!, & & {if\,\,x 是正整数}\\ \int^{\infty}_0t^{x-1}e^{-t}dt, & & {if\; x是实数部分为正的复数}\\ \end{aligned} \right.
Γ(x)=⎩⎪⎨⎪⎧(x−1)!,∫0∞tx−1e−tdt,ifx是正整数ifx是实数部分为正的复数
Γ
(
x
)
\Gamma(x)
Γ(x) 有以下性质:(1)
Γ
(
x
+
1
)
=
x
Γ
(
x
)
\Gamma(x+1)=x\Gamma(x)
Γ(x+1)=xΓ(x);(2)
Γ
(
n
+
1
)
=
n
!
\Gamma(n+1)=n!
Γ(n+1)=n!;(3)
Γ
(
z
)
Γ
(
1
−
z
)
=
π
s
i
n
(
π
z
)
,
其
中
0
<
R
e
(
z
)
<
1
\displaystyle\Gamma(z)\Gamma(1-z)=\frac{\pi}{sin(\pi z)}\;,其中 0<Re(z)<1
Γ(z)Γ(1−z)=sin(πz)π,其中0<Re(z)<1;
贝塔分布满足: ∫ 0 1 B e t a ( μ ∣ a , b ) d μ = 1 \displaystyle\int^1_0Beta(\mu|a,b)d\mu=1 ∫01Beta(μ∣a,b)dμ=1;
其期望和方差为:
E
[
μ
]
=
a
a
+
b
\displaystyle\mathbb E[\mu]=\frac{a}{a+b}
E[μ]=a+ba;
v
a
r
[
μ
]
=
a
b
(
a
+
b
)
2
(
a
+
b
+
1
)
\displaystyle var[\mu]=\frac{ab}{(a+b)^2(a+b+1)}
var[μ]=(a+b)2(a+b+1)ab;
当 a,b 取不同值时,得到的贝塔分布如下:
因为 a,b 可分别作为 x=1 和 x=0 的有效观测次数的简单解释(在下面做出说明),故由上图可看出,随着观测次数的增加,先验 Beta 分布变得越来越有尖峰;当 a → ∞ , b → ∞ a\to\infty,b\to\infty a→∞,b→∞ 时,Beta 分布的方差趋近于 0。
共轭
共轭——当选择的先验同 μ \mu μ 和 1 − μ 1-\mu 1−μ 的幂次成比例,那么后验就会同先验和似然函数的积成比例,即与先验有着相同的函数形式,这种形质叫做共轭。
则
μ
\mu
μ 的后验可由先验 Beta 分布和似然二项分布相乘得到,并使后验只与
μ
\mu
μ 相关,则有:
p
(
μ
∣
m
,
l
,
a
,
b
)
=
Γ
(
m
+
a
+
l
+
b
)
Γ
(
m
+
a
)
Γ
(
l
+
b
)
μ
m
+
a
−
1
(
1
−
μ
)
l
+
b
−
1
\displaystyle p(\mu|m,l,a,b)=\frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}
p(μ∣m,l,a,b)=Γ(m+a)Γ(l+b)Γ(m+a+l+b)μm+a−1(1−μ)l+b−1,其中
l
+
m
=
N
l+m=N
l+m=N。
先验和后验的关系如下所示:
从上述后验的表达式可以看出,数据集中 x = 1 x=1 x=1 的次数 m 和 x = 0 x=0 x=0 的次数 l l l 的影响,从先验分布到后验分布,a 使得 m 增加,b 使得 l l l 增加。这给出了以先验中超参数 a,b 分别作为 x=1 和 x=0 的有效观测次数的简单解释,a,b 不一定为整数。
进一步的,当序列式的观测数据时,后验分布可作为下一次数据的先验。在每一次观测,后验都是贝塔分布,x=0 和 x=1 的总观测次数(之前的和现在的)由参数 a 和 b 给出。当出现 x=1时,相应的给 a 加 1;当出现 x=0 时, 相应的给 b 加 1。
当以贝叶斯视角时,这种序列式的学习就自然出现了。先验和似然函数是独立的,但却依赖于数据的独立同分布假设。序列式的方法使得我们可以每次进行少量的计算而不必一次性全部计算,在有新数据时也可直接加上。
当目标是预测时,首先需要预测 x 在给定数据集
D
\mathcal D
D 上的分布,可得:
p
(
x
=
1
∣
D
)
=
∫
0
1
p
(
x
=
1
∣
μ
)
p
(
μ
∣
D
)
d
μ
=
∫
0
1
μ
⋅
p
(
μ
∣
D
)
d
μ
=
E
[
μ
∣
D
]
\displaystyle p(x=1|\mathcal D)=\int^1_0p(x=1|\mu)p(\mu|\mathcal D)d\mu=\int^1_0\mu\cdot p(\mu|\mathcal D)d\mu=\mathbb E[\mu|\mathcal D]
p(x=1∣D)=∫01p(x=1∣μ)p(μ∣D)dμ=∫01μ⋅p(μ∣D)dμ=E[μ∣D]。
根据先验分布的均值,有 p ( x = 1 ∣ D ) = m + a m + a + l + b \displaystyle p(x=1|\mathcal D)=\frac{m+a}{m+a+l+b} p(x=1∣D)=m+a+l+bm+a。
注意到,当数据集是无穷大时,即 m , l → ∞ m,l\to\infty m,l→∞,此时贝叶斯理论和最大似然估计的结果是相同的。随着数据集的增大,先验 Beta 分布变得越来越有尖峰,方差变小;当 a → ∞ , b → ∞ a\to\infty,b\to\infty a→∞,b→∞ 时,Beta 分布的方差趋近于 0。
这是贝叶斯学习的一个特性,即 随着观测到越来越多的数据,先验分布代表的不确定性会逐渐减小消失。记 θ \theta θ 为贝叶斯学习的参数,数据集为 D \mathcal D D,有联合分布 p ( θ , D ) p(\theta,\mathcal D) p(θ,D),则有:
对期望:
E
θ
[
θ
]
=
E
D
[
E
θ
[
θ
∣
D
]
]
\displaystyle \mathbb E_{\theta}[\theta]=\mathbb E_{\mathcal D}[\mathbb E_{\theta}[\theta|\mathcal D]]
Eθ[θ]=ED[Eθ[θ∣D]],
其中
E
θ
[
θ
]
=
∫
p
(
θ
)
θ
d
θ
\displaystyle \mathbb E_{\theta}[\theta]=\int p(\theta)\theta d\theta
Eθ[θ]=∫p(θ)θdθ,
E
D
[
E
θ
[
θ
∣
D
]
]
=
∫
[
∫
θ
p
(
θ
∣
D
)
d
θ
]
p
(
D
)
d
D
\displaystyle \mathbb E_{\mathcal D}[\mathbb E_{\theta}[\theta|\mathcal D]]=\int[\int\theta p(\theta|\mathcal D)d\theta] p(\mathcal D)d\mathcal D
ED[Eθ[θ∣D]]=∫[∫θp(θ∣D)dθ]p(D)dD
对方差: v a r θ [ θ ] = E D [ v a r θ [ θ ∣ D ] ] + v a r D [ E θ [ θ ∣ D ] ] \displaystyle var_{\theta}[\theta]=\mathbb E_{\mathcal D}[var_{\theta}[\theta|\mathcal D]]+var_{\mathcal D}[\mathbb E_{\theta}[\theta|\mathcal D]] varθ[θ]=ED[varθ[θ∣D]]+varD[Eθ[θ∣D]]
即,可以看到, θ \theta θ 在由分布产生的后验均值等于其先验均值;而 θ \theta θ 的后验方差要小于先验方差,若方差的后验均值更大,则方差会减小的更多。这一结果只在平均上成立,对于具体的实际问题可能各不相同。