文章目录
前言
共轭分布是统计机器学习特别是贝叶斯学派一个非常重要的概念,以往在很多地方遇到的时候都一笔带过了,仅仅了解了一个大概,这里将二项分布与Beta分布、正太分布的共轭性质推导了一遍,记录下来加深理解。
一、贝叶斯定理与共轭分布的定义回顾
贝叶斯公式
P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) (1) P(y|x) = \frac{P(x|y) * P(y)}{ P(x)} \tag{1} P(y∣x)=P(x)P(x∣y)∗P(y)(1)
其中:
- P ( y ∣ x ) P(y|x) P(y∣x)为后验分布(posterior):给定 x x x后,变量 y y y的分布;
- P ( y ) P(y) P(y)为先验分布(prior):变量 y y y自身的分布;
- P ( x ∣ y ) P(x|y) P(x∣y)为似然(likelihood):给定 y y y后,变量 x x x的分布;
- P ( x ) P(x) P(x)为变量 x x x的先验分布(evidence):观测到的 x x x的分布,一般为常数。
边缘概率与联合概率
x
x
x为离散变量时:
P
(
y
)
=
∑
x
∈
{
1
,
2
,
.
.
.
,
}
P
(
x
,
y
)
=
∑
x
∈
{
1
,
2
,
.
.
.
,
}
P
(
y
∣
x
)
∗
P
(
x
)
(2)
P(y) = \sum_{x\in\{1,2,...,\}}P(x,y)= \sum_{x\in\{1,2,...,\}}P(y|x) * P(x) \tag{2}
P(y)=x∈{1,2,...,}∑P(x,y)=x∈{1,2,...,}∑P(y∣x)∗P(x)(2)
x
x
x为连续变量时:
P
(
y
)
=
∫
x
P
(
x
,
y
)
d
x
=
∫
x
P
(
y
∣
x
)
∗
P
(
x
)
d
x
(3)
P(y) = \int_{x}P(x,y)dx= \int_{x}P(y|x) * P(x)dx \tag{3}
P(y)=∫xP(x,y)dx=∫xP(y∣x)∗P(x)dx(3)
共轭分布
In Bayesian probability theory, if the posterior distribution p ( θ ∣ x ) p(θ | x) p(θ∣x) is in the same probability distribution family as the prior probability distribution p ( θ ) p(θ) p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function p ( x ∣ θ ) p(x | θ) p(x∣θ).
在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。
这是共轭分布的基本定义,需要注意里面几个点:
- 后验分布与先验分布属于同类分布:要求后验分布与先验分布是同类分布,不要求似然函数分布相同。
- 先验分布与后验分布被称为共轭分布:先验分布与后验分布被称为共轭分布。
- 先验分布被称为似然函数的共轭先验:先验分布是似然函数的共轭先验。
二、二项分布与Beta分布
二项分布的共轭先验是Beta分布,即:当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。
套用一下上面的定义:当先验分布为Beta分布(记为分布A),似然为二项分布(记为分布B)时,其后验分布也是Beta分布(记为分布C),则先验分布A与后验分布C为共轭先验,先验分布A是似然函数B的共轭先验,即:Beta分布是二项分布的共轭先验。
假设先验分布服从Beta分布
先验分布
P
(
y
)
P(y)
P(y)服从Beta分布
B
e
(
α
,
β
)
Be(\alpha, \beta)
Be(α,β),即:
P
(
y
)
=
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
y
α
−
1
(
1
−
y
)
β
−
1
(4)
P(y) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} \tag{4}
P(y)=Γ(α)Γ(β)Γ(α+β)yα−1(1−y)β−1(4)
其中
Γ
(
α
)
\Gamma(\alpha)
Γ(α)为Gamma函数,当
α
\alpha
α为整数时,
Γ
(
n
)
=
(
n
−
1
)
!
\Gamma(n) = (n-1)!
Γ(n)=(n−1)!;在实数域内,
Γ
(
z
)
=
∫
0
∞
t
z
−
1
e
−
t
d
t
\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt
Γ(z)=∫0∞tz−1e−tdt。
P
(
y
)
P(y)
P(y)为概率密度函数,自然的我们有:
∫
y
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
y
α
−
1
(
1
−
y
)
β
−
1
d
y
=
1
(5)
\int_{y} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} dy = 1 \tag{5}
∫yΓ(α)Γ(β)Γ(α+β)yα−1(1−y)β−1dy=1(5)
假设似然服从二项分布
似然
P
(
x
∣
y
)
P(x|y)
P(x∣y)为二项分布,似然为给定变量
y
y
y的情况下,变量
x
x
x的分布,这里我们让变量
x
x
x服从
B
(
n
,
y
)
B(n, y)
B(n,y)的二项分布,即:
P
(
x
∣
y
)
=
C
n
x
y
x
(
1
−
y
)
n
−
x
(6)
P(x|y) = C_{n}^{x} y^{x}(1-y)^{n-x} \tag{6}
P(x∣y)=Cnxyx(1−y)n−x(6)
基于上面Gamma函数的定义,
P
(
x
∣
y
)
P(x|y)
P(x∣y)可以改写为:
P
(
x
∣
y
)
=
Γ
(
n
)
Γ
(
x
)
Γ
(
n
−
x
)
y
x
(
1
−
y
)
n
−
x
(7)
P(x|y) = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} \tag{7}
P(x∣y)=Γ(x)Γ(n−x)Γ(n)yx(1−y)n−x(7)
变量 x x x的先验分布
P
(
x
)
=
∫
y
P
(
x
,
y
)
d
y
=
∫
y
P
(
x
∣
y
)
∗
P
(
y
)
d
y
=
∫
y
Γ
(
n
)
Γ
(
x
)
Γ
(
n
−
x
)
y
x
(
1
−
y
)
n
−
x
∗
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
y
α
−
1
(
1
−
y
)
β
−
1
d
y
=
∫
y
Γ
(
n
)
Γ
(
α
+
β
)
Γ
(
x
)
Γ
(
n
−
x
)
Γ
(
α
)
Γ
(
β
)
y
(
x
+
α
)
−
1
(
1
−
y
)
(
n
−
x
+
β
)
−
1
d
y
=
Γ
(
n
)
Γ
(
α
+
β
)
Γ
(
x
)
Γ
(
n
−
x
)
Γ
(
α
)
Γ
(
β
)
∫
y
y
(
x
+
α
)
−
1
(
1
−
y
)
(
n
−
x
+
β
)
−
1
d
y
(8)
\begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1}dy \\ & = \int_{y}\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \\ & = \frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \end{aligned} \tag{8}
P(x)=∫yP(x,y)dy=∫yP(x∣y)∗P(y)dy=∫yΓ(x)Γ(n−x)Γ(n)yx(1−y)n−x∗Γ(α)Γ(β)Γ(α+β)yα−1(1−y)β−1dy=∫yΓ(x)Γ(n−x)Γ(α)Γ(β)Γ(n)Γ(α+β)y(x+α)−1(1−y)(n−x+β)−1dy=Γ(x)Γ(n−x)Γ(α)Γ(β)Γ(n)Γ(α+β)∫yy(x+α)−1(1−y)(n−x+β)−1dy(8)
由式子5有:
∫
y
y
(
x
+
α
)
−
1
(
1
−
y
)
(
n
−
x
+
β
)
−
1
d
y
=
Γ
(
x
+
α
)
Γ
(
n
−
x
+
β
)
Γ
(
n
+
α
+
β
)
\int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy = \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)}
∫yy(x+α)−1(1−y)(n−x+β)−1dy=Γ(n+α+β)Γ(x+α)Γ(n−x+β)
于是:
P
(
x
)
=
Γ
(
n
)
Γ
(
α
+
β
)
Γ
(
x
)
Γ
(
n
−
x
)
Γ
(
α
)
Γ
(
β
)
∗
Γ
(
x
+
α
)
Γ
(
n
−
x
+
β
)
Γ
(
n
+
α
+
β
)
(9)
P(x)=\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} * \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} \tag{9}
P(x)=Γ(x)Γ(n−x)Γ(α)Γ(β)Γ(n)Γ(α+β)∗Γ(n+α+β)Γ(x+α)Γ(n−x+β)(9)
后验概率分布
结合式子4、6、9,我们有:
P
(
y
∣
x
)
=
P
(
x
∣
y
)
∗
P
(
y
)
P
(
x
)
=
Γ
(
n
)
Γ
(
x
)
Γ
(
n
−
x
)
y
x
(
1
−
y
)
n
−
x
∗
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
y
α
−
1
(
1
−
y
)
β
−
1
∗
Γ
(
x
)
Γ
(
n
−
x
)
Γ
(
α
)
Γ
(
β
)
Γ
(
n
)
Γ
(
α
+
β
)
∗
Γ
(
n
+
α
+
β
)
Γ
(
x
+
α
)
Γ
(
n
−
x
+
β
)
=
Γ
(
n
+
α
+
β
)
Γ
(
x
+
α
)
Γ
(
n
−
x
+
β
)
y
(
x
+
α
)
−
1
(
1
−
y
)
(
n
−
x
+
β
)
−
1
\begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} * \frac{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)}{\Gamma(n)\Gamma(\alpha + \beta)} * \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)} \\ & = \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1} \end{aligned}
P(y∣x)=P(x)P(x∣y)∗P(y)=Γ(x)Γ(n−x)Γ(n)yx(1−y)n−x∗Γ(α)Γ(β)Γ(α+β)yα−1(1−y)β−1∗Γ(n)Γ(α+β)Γ(x)Γ(n−x)Γ(α)Γ(β)∗Γ(x+α)Γ(n−x+β)Γ(n+α+β)=Γ(x+α)Γ(n−x+β)Γ(n+α+β)y(x+α)−1(1−y)(n−x+β)−1
后验分布
P
(
y
∣
x
)
P(y|x)
P(y∣x)服从Beta分布
B
e
(
x
+
α
,
n
−
x
+
β
)
Be(x+\alpha, n-x+\beta)
Be(x+α,n−x+β),得出前面给出的结论:
当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。
三、正太分布的共轭先验
正太分布的共轭先验也是正太分布,即:当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。
假设先验分布服从正太分布
先验分布
P
(
y
)
P(y)
P(y)服从正太
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2),即:
P
(
y
)
=
1
2
π
σ
e
x
p
(
−
(
y
−
μ
)
2
2
σ
2
)
(10)
P(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2}) \tag{10}
P(y)=2πσ1exp(−2σ2(y−μ)2)(10)
对于正太分布,我们有:
∫
y
1
2
π
σ
e
x
p
(
−
(
y
−
μ
)
2
2
σ
2
)
d
y
=
1
(11)
\int_{y}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy=1 \tag{11}
∫y2πσ1exp(−2σ2(y−μ)2)dy=1(11)
假设似然服从正太分布
似然
P
(
x
∣
y
)
P(x|y)
P(x∣y)服从正太分布,这里为了不失一般性,假设似然
P
(
x
∣
y
)
P(x|y)
P(x∣y)服从
N
(
a
y
+
b
,
λ
2
)
N(ay+b, \lambda^2)
N(ay+b,λ2)的正太分布,即给定变量
y
y
y,变量
x
x
x服从均值为
y
y
y的线性变换
a
y
+
b
ay+b
ay+b、方差为
λ
2
\lambda^2
λ2的正太分布:
P
(
x
∣
y
)
=
1
2
π
λ
e
x
p
(
−
(
x
−
(
a
y
+
b
)
)
2
2
λ
2
)
(12)
P(x|y) = \frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}) \tag{12}
P(x∣y)=2πλ1exp(−2λ2(x−(ay+b))2)(12)
变量 x x x的先验分布
P
(
x
)
=
∫
y
P
(
x
,
y
)
d
y
=
∫
y
P
(
x
∣
y
)
∗
P
(
y
)
d
y
=
∫
y
1
2
π
λ
e
x
p
(
−
(
x
−
(
a
y
+
b
)
)
2
2
λ
2
)
1
2
π
σ
e
x
p
(
−
(
y
−
μ
)
2
2
σ
2
)
d
y
=
1
2
π
λ
1
2
π
σ
∫
y
e
x
p
(
−
(
x
−
(
a
y
+
b
)
)
2
2
λ
2
−
(
y
−
μ
)
2
2
σ
2
)
d
y
(13)
\begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy \\ & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}\int_{y}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2})dy \end{aligned} \tag{13}
P(x)=∫yP(x,y)dy=∫yP(x∣y)∗P(y)dy=∫y2πλ1exp(−2λ2(x−(ay+b))2)2πσ1exp(−2σ2(y−μ)2)dy=2πλ12πσ1∫yexp(−2λ2(x−(ay+b))2−2σ2(y−μ)2)dy(13)
式子内部对变量
y
y
y求积分,我们将其他变量移出指数函数,有:
P
(
x
)
=
1
2
π
λ
1
2
π
σ
e
x
p
(
−
σ
2
λ
2
μ
2
(
x
−
b
)
2
−
[
a
λ
2
(
x
−
b
)
+
μ
λ
2
]
2
a
2
σ
2
+
λ
2
2
σ
2
λ
2
)
∫
y
e
x
p
(
−
(
y
−
a
σ
2
(
x
−
b
)
+
λ
2
μ
a
2
σ
2
+
λ
2
)
2
2
λ
2
σ
2
a
2
σ
2
+
λ
2
)
d
y
\begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2})\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy \end{aligned}
P(x)=2πλ12πσ1exp(−2σ2λ2σ2λ2μ2(x−b)2−a2σ2+λ2[aλ2(x−b)+μλ2]2)∫yexp(−a2σ2+λ22λ2σ2(y−a2σ2+λ2aσ2(x−b)+λ2μ)2)dy
由正太分布的概率密度积分(公式11)我们有:
∫
y
e
x
p
(
−
(
y
−
a
σ
2
(
x
−
b
)
+
λ
2
μ
a
2
σ
2
+
λ
2
)
2
2
λ
2
σ
2
a
2
σ
2
+
λ
2
)
d
y
=
2
π
λ
σ
1
a
2
σ
2
+
λ
2
\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy=\sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}}
∫yexp(−a2σ2+λ22λ2σ2(y−a2σ2+λ2aσ2(x−b)+λ2μ)2)dy=2πλσa2σ2+λ21
于是有:
P
(
x
)
=
1
2
π
λ
1
2
π
σ
e
x
p
(
−
σ
2
λ
2
μ
2
(
x
−
b
)
2
−
[
a
λ
2
(
x
−
b
)
+
μ
λ
2
]
2
a
2
σ
2
+
λ
2
2
σ
2
λ
2
)
∗
2
π
λ
σ
1
a
2
σ
2
+
λ
2
=
1
2
π
a
2
σ
2
+
λ
2
e
x
p
(
−
σ
2
λ
2
μ
2
(
x
−
b
)
2
(
a
2
σ
2
+
λ
2
)
−
[
a
λ
2
(
x
−
b
)
+
μ
λ
2
]
2
2
σ
2
λ
2
(
a
2
σ
2
+
λ
2
)
)
=
1
2
π
a
2
σ
2
+
λ
2
e
x
p
(
−
σ
2
λ
2
(
x
−
(
a
μ
+
b
)
)
2
2
σ
2
λ
2
(
a
2
σ
2
+
λ
2
)
)
=
1
2
π
a
2
σ
2
+
λ
2
e
x
p
(
−
(
x
−
(
a
μ
+
b
)
)
2
2
(
a
2
σ
2
+
λ
2
)
)
\begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2}) * \sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2(a^2\sigma^2+\lambda^2)-[a\lambda^2(x-b)+\mu\lambda^2]^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2(x-(a\mu+b))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \end{aligned}
P(x)=2πλ12πσ1exp(−2σ2λ2σ2λ2μ2(x−b)2−a2σ2+λ2[aλ2(x−b)+μλ2]2)∗2πλσa2σ2+λ21=2πa2σ2+λ21exp(−2σ2λ2(a2σ2+λ2)σ2λ2μ2(x−b)2(a2σ2+λ2)−[aλ2(x−b)+μλ2]2)=2πa2σ2+λ21exp(−2σ2λ2(a2σ2+λ2)σ2λ2(x−(aμ+b))2)=2πa2σ2+λ21exp(−2(a2σ2+λ2)(x−(aμ+b))2)
最终可以得出结论:变量
x
x
x服从
N
(
a
μ
+
b
,
a
2
σ
2
+
λ
2
)
N(a\mu+b, a^2\sigma^2+\lambda^2)
N(aμ+b,a2σ2+λ2)的正太分布。
后验概率分布
P
(
y
∣
x
)
=
P
(
x
∣
y
)
∗
P
(
y
)
P
(
x
)
=
1
2
π
λ
e
x
p
(
−
(
x
−
(
a
y
+
b
)
)
2
2
λ
2
)
1
2
π
σ
e
x
p
(
−
(
y
−
μ
)
2
2
σ
2
)
1
2
π
a
2
σ
2
+
λ
2
e
x
p
(
−
(
x
−
(
a
μ
+
b
)
)
2
2
(
a
2
σ
2
+
λ
2
)
)
=
1
2
π
σ
λ
(
a
2
σ
2
+
λ
2
)
e
x
p
(
−
(
x
−
(
a
y
+
b
)
)
2
2
λ
2
−
(
y
−
μ
)
2
2
σ
2
+
(
x
−
(
a
μ
+
b
)
)
2
2
(
a
2
σ
2
+
λ
2
)
)
=
1
2
π
σ
λ
(
a
2
σ
2
+
λ
2
)
e
x
p
(
−
(
(
a
2
σ
2
+
λ
2
)
y
−
(
μ
λ
2
+
a
σ
2
(
x
−
b
)
)
)
2
2
σ
2
λ
2
(
a
2
σ
2
+
λ
2
)
)
=
1
2
π
σ
λ
(
a
2
σ
2
+
λ
2
)
e
x
p
(
−
(
y
−
(
μ
λ
2
+
a
σ
2
(
x
−
b
)
)
(
a
2
σ
2
+
λ
2
)
)
2
2
σ
2
λ
2
(
a
2
σ
2
+
λ
2
)
)
\begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})}{\frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)})} \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2}+\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{((a^2\sigma^2+\lambda^2)y-(\mu\lambda^2+a\sigma^2(x-b)))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(y-\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)})^2}{\frac{2\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}}) \end{aligned}
P(y∣x)=P(x)P(x∣y)∗P(y)=2πa2σ2+λ21exp(−2(a2σ2+λ2)(x−(aμ+b))2)2πλ1exp(−2λ2(x−(ay+b))2)2πσ1exp(−2σ2(y−μ)2)=2π(a2σ2+λ2)σλ1exp(−2λ2(x−(ay+b))2−2σ2(y−μ)2+2(a2σ2+λ2)(x−(aμ+b))2)=2π(a2σ2+λ2)σλ1exp(−2σ2λ2(a2σ2+λ2)((a2σ2+λ2)y−(μλ2+aσ2(x−b)))2)=2π(a2σ2+λ2)σλ1exp(−(a2σ2+λ2)2σ2λ2(y−(a2σ2+λ2)(μλ2+aσ2(x−b)))2)
可以看出,后验概率
P
(
y
∣
x
)
P(y|x)
P(y∣x)服从
N
(
(
μ
λ
2
+
a
σ
2
(
x
−
b
)
)
(
a
2
σ
2
+
λ
2
)
,
σ
2
λ
2
(
a
2
σ
2
+
λ
2
)
)
N(\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)}, \frac{\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)})
N((a2σ2+λ2)(μλ2+aσ2(x−b)),(a2σ2+λ2)σ2λ2)的正太分布,得出前面给出的结论:
当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。
总结
本文简单推导了一下二项分布与Beta分布、正太分布的共轭性质,主要都是基于贝叶斯定理的简单推导,后续还有一些扩展到多维的内容,比如多项分布与狄利克雷分布、多维正太分布,后面有时间再推理记录。
3924

被折叠的 条评论
为什么被折叠?



