共轭分布和共轭先验


前言

共轭分布是统计机器学习特别是贝叶斯学派一个非常重要的概念,以往在很多地方遇到的时候都一笔带过了,仅仅了解了一个大概,这里将二项分布与Beta分布、正太分布的共轭性质推导了一遍,记录下来加深理解。


一、贝叶斯定理与共轭分布的定义回顾

贝叶斯公式

P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) (1) P(y|x) = \frac{P(x|y) * P(y)}{ P(x)} \tag{1} P(yx)=P(x)P(xy)P(y)(1)

其中:

  • P ( y ∣ x ) P(y|x) P(yx)为后验分布(posterior):给定 x x x后,变量 y y y的分布;
  • P ( y ) P(y) P(y)为先验分布(prior):变量 y y y自身的分布;
  • P ( x ∣ y ) P(x|y) P(xy)为似然(likelihood):给定 y y y后,变量 x x x的分布;
  • P ( x ) P(x) P(x)为变量 x x x的先验分布(evidence):观测到的 x x x的分布,一般为常数。

边缘概率与联合概率

x x x为离散变量时:
P ( y ) = ∑ x ∈ { 1 , 2 , . . . , } P ( x , y ) = ∑ x ∈ { 1 , 2 , . . . , } P ( y ∣ x ) ∗ P ( x ) (2) P(y) = \sum_{x\in\{1,2,...,\}}P(x,y)= \sum_{x\in\{1,2,...,\}}P(y|x) * P(x) \tag{2} P(y)=x{1,2,...,}P(x,y)=x{1,2,...,}P(yx)P(x)(2)
x x x为连续变量时:
P ( y ) = ∫ x P ( x , y ) d x = ∫ x P ( y ∣ x ) ∗ P ( x ) d x (3) P(y) = \int_{x}P(x,y)dx= \int_{x}P(y|x) * P(x)dx \tag{3} P(y)=xP(x,y)dx=xP(yx)P(x)dx(3)

共轭分布

In Bayesian probability theory, if the posterior distribution p ( θ ∣ x ) p(θ | x) p(θx) is in the same probability distribution family as the prior probability distribution p ( θ ) p(θ) p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function p ( x ∣ θ ) p(x | θ) p(xθ).
在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

这是共轭分布的基本定义,需要注意里面几个点:

  • 后验分布与先验分布属于同类分布:要求后验分布与先验分布是同类分布,不要求似然函数分布相同。
  • 先验分布与后验分布被称为共轭分布:先验分布与后验分布被称为共轭分布。
  • 先验分布被称为似然函数的共轭先验:先验分布是似然函数的共轭先验。

二、二项分布与Beta分布

二项分布的共轭先验是Beta分布,即:当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。

套用一下上面的定义:当先验分布为Beta分布(记为分布A),似然为二项分布(记为分布B)时,其后验分布也是Beta分布(记为分布C),则先验分布A与后验分布C为共轭先验,先验分布A是似然函数B的共轭先验,即:Beta分布是二项分布的共轭先验。

假设先验分布服从Beta分布

先验分布 P ( y ) P(y) P(y)服从Beta分布 B e ( α , β ) Be(\alpha, \beta) Be(α,β),即:
P ( y ) = Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 (4) P(y) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} \tag{4} P(y)=Γ(α)Γ(β)Γ(α+β)yα1(1y)β1(4)
其中 Γ ( α ) \Gamma(\alpha) Γ(α)为Gamma函数,当 α \alpha α为整数时, Γ ( n ) = ( n − 1 ) ! \Gamma(n) = (n-1)! Γ(n)=(n1)!;在实数域内, Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt Γ(z)=0tz1etdt
P ( y ) P(y) P(y)为概率密度函数,自然的我们有:
∫ y Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 d y = 1 (5) \int_{y} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} dy = 1 \tag{5} yΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=1(5)

假设似然服从二项分布

似然 P ( x ∣ y ) P(x|y) P(xy)为二项分布,似然为给定变量 y y y的情况下,变量 x x x的分布,这里我们让变量 x x x服从 B ( n , y ) B(n, y) B(n,y)的二项分布,即:
P ( x ∣ y ) = C n x y x ( 1 − y ) n − x (6) P(x|y) = C_{n}^{x} y^{x}(1-y)^{n-x} \tag{6} P(xy)=Cnxyx(1y)nx(6)
基于上面Gamma函数的定义, P ( x ∣ y ) P(x|y) P(xy)可以改写为:
P ( x ∣ y ) = Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x (7) P(x|y) = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} \tag{7} P(xy)=Γ(x)Γ(nx)Γ(n)yx(1y)nx(7)

变量 x x x的先验分布

P ( x ) = ∫ y P ( x , y ) d y = ∫ y P ( x ∣ y ) ∗ P ( y ) d y = ∫ y Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x ∗ Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 d y = ∫ y Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y = Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) ∫ y y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y (8) \begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1}dy \\ & = \int_{y}\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \\ & = \frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \end{aligned} \tag{8} P(x)=yP(x,y)dy=yP(xy)P(y)dy=yΓ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=yΓ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)y(x+α)1(1y)(nx+β)1dy=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)yy(x+α)1(1y)(nx+β)1dy(8)
由式子5有:
∫ y y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 d y = Γ ( x + α ) Γ ( n − x + β ) Γ ( n + α + β ) \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy = \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} yy(x+α)1(1y)(nx+β)1dy=Γ(n+α+β)Γ(x+α)Γ(nx+β)
于是:
P ( x ) = Γ ( n ) Γ ( α + β ) Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) ∗ Γ ( x + α ) Γ ( n − x + β ) Γ ( n + α + β ) (9) P(x)=\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} * \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} \tag{9} P(x)=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)Γ(n+α+β)Γ(x+α)Γ(nx+β)(9)

后验概率分布

结合式子4、6、9,我们有:
P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) = Γ ( n ) Γ ( x ) Γ ( n − x ) y x ( 1 − y ) n − x ∗ Γ ( α + β ) Γ ( α ) Γ ( β ) y α − 1 ( 1 − y ) β − 1 ∗ Γ ( x ) Γ ( n − x ) Γ ( α ) Γ ( β ) Γ ( n ) Γ ( α + β ) ∗ Γ ( n + α + β ) Γ ( x + α ) Γ ( n − x + β ) = Γ ( n + α + β ) Γ ( x + α ) Γ ( n − x + β ) y ( x + α ) − 1 ( 1 − y ) ( n − x + β ) − 1 \begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} * \frac{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)}{\Gamma(n)\Gamma(\alpha + \beta)} * \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)} \\ & = \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1} \end{aligned} P(yx)=P(x)P(xy)P(y)=Γ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1Γ(n)Γ(α+β)Γ(x)Γ(nx)Γ(α)Γ(β)Γ(x+α)Γ(nx+β)Γ(n+α+β)=Γ(x+α)Γ(nx+β)Γ(n+α+β)y(x+α)1(1y)(nx+β)1
后验分布 P ( y ∣ x ) P(y|x) P(yx)服从Beta分布 B e ( x + α , n − x + β ) Be(x+\alpha, n-x+\beta) Be(x+α,nx+β),得出前面给出的结论:

当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。


三、正太分布的共轭先验

正太分布的共轭先验也是正太分布,即:当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

假设先验分布服从正太分布

先验分布 P ( y ) P(y) P(y)服从正太 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),即:
P ( y ) = 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) (10) P(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2}) \tag{10} P(y)=2π σ1exp(2σ2(yμ)2)(10)
对于正太分布,我们有:
∫ y 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) d y = 1 (11) \int_{y}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy=1 \tag{11} y2π σ1exp(2σ2(yμ)2)dy=1(11)

假设似然服从正太分布

似然 P ( x ∣ y ) P(x|y) P(xy)服从正太分布,这里为了不失一般性,假设似然 P ( x ∣ y ) P(x|y) P(xy)服从 N ( a y + b , λ 2 ) N(ay+b, \lambda^2) N(ay+b,λ2)的正太分布,即给定变量 y y y,变量 x x x服从均值为 y y y的线性变换 a y + b ay+b ay+b、方差为 λ 2 \lambda^2 λ2的正太分布:
P ( x ∣ y ) = 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) (12) P(x|y) = \frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}) \tag{12} P(xy)=2π λ1exp(2λ2(x(ay+b))2)(12)

变量 x x x的先验分布

P ( x ) = ∫ y P ( x , y ) d y = ∫ y P ( x ∣ y ) ∗ P ( y ) d y = ∫ y 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) d y = 1 2 π λ 1 2 π σ ∫ y e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 − ( y − μ ) 2 2 σ 2 ) d y (13) \begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy \\ & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}\int_{y}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2})dy \end{aligned} \tag{13} P(x)=yP(x,y)dy=yP(xy)P(y)dy=y2π λ1exp(2λ2(x(ay+b))2)2π σ1exp(2σ2(yμ)2)dy=2π λ12π σ1yexp(2λ2(x(ay+b))22σ2(yμ)2)dy(13)
式子内部对变量 y y y求积分,我们将其他变量移出指数函数,有:
P ( x ) = 1 2 π λ 1 2 π σ e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 − [ a λ 2 ( x − b ) + μ λ 2 ] 2 a 2 σ 2 + λ 2 2 σ 2 λ 2 ) ∫ y e x p ( − ( y − a σ 2 ( x − b ) + λ 2 μ a 2 σ 2 + λ 2 ) 2 2 λ 2 σ 2 a 2 σ 2 + λ 2 ) d y \begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2})\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy \end{aligned} P(x)=2π λ12π σ1exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy
由正太分布的概率密度积分(公式11)我们有:
∫ y e x p ( − ( y − a σ 2 ( x − b ) + λ 2 μ a 2 σ 2 + λ 2 ) 2 2 λ 2 σ 2 a 2 σ 2 + λ 2 ) d y = 2 π λ σ 1 a 2 σ 2 + λ 2 \int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy=\sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy=2π λσa2σ2+λ2 1
于是有:
P ( x ) = 1 2 π λ 1 2 π σ e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 − [ a λ 2 ( x − b ) + μ λ 2 ] 2 a 2 σ 2 + λ 2 2 σ 2 λ 2 ) ∗ 2 π λ σ 1 a 2 σ 2 + λ 2 = 1 2 π a 2 σ 2 + λ 2 e x p ( − σ 2 λ 2 μ 2 ( x − b ) 2 ( a 2 σ 2 + λ 2 ) − [ a λ 2 ( x − b ) + μ λ 2 ] 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π a 2 σ 2 + λ 2 e x p ( − σ 2 λ 2 ( x − ( a μ + b ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π a 2 σ 2 + λ 2 e x p ( − ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) \begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2}) * \sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2(a^2\sigma^2+\lambda^2)-[a\lambda^2(x-b)+\mu\lambda^2]^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2(x-(a\mu+b))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \end{aligned} P(x)=2π λ12π σ1exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)2π λσa2σ2+λ2 1=2π a2σ2+λ2 1exp(2σ2λ2(a2σ2+λ2)σ2λ2μ2(xb)2(a2σ2+λ2)[aλ2(xb)+μλ2]2)=2π a2σ2+λ2 1exp(2σ2λ2(a2σ2+λ2)σ2λ2(x(aμ+b))2)=2π a2σ2+λ2 1exp(2(a2σ2+λ2)(x(aμ+b))2)
最终可以得出结论:变量 x x x服从 N ( a μ + b , a 2 σ 2 + λ 2 ) N(a\mu+b, a^2\sigma^2+\lambda^2) N(aμ+b,a2σ2+λ2)的正太分布。

后验概率分布

P ( y ∣ x ) = P ( x ∣ y ) ∗ P ( y ) P ( x ) = 1 2 π λ e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 ) 1 2 π σ e x p ( − ( y − μ ) 2 2 σ 2 ) 1 2 π a 2 σ 2 + λ 2 e x p ( − ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( x − ( a y + b ) ) 2 2 λ 2 − ( y − μ ) 2 2 σ 2 + ( x − ( a μ + b ) ) 2 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( ( a 2 σ 2 + λ 2 ) y − ( μ λ 2 + a σ 2 ( x − b ) ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) = 1 2 π σ λ ( a 2 σ 2 + λ 2 ) e x p ( − ( y − ( μ λ 2 + a σ 2 ( x − b ) ) ( a 2 σ 2 + λ 2 ) ) 2 2 σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) \begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})}{\frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)})} \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2}+\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{((a^2\sigma^2+\lambda^2)y-(\mu\lambda^2+a\sigma^2(x-b)))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(y-\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)})^2}{\frac{2\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}}) \end{aligned} P(yx)=P(x)P(xy)P(y)=2π a2σ2+λ2 1exp(2(a2σ2+λ2)(x(aμ+b))2)2π λ1exp(2λ2(x(ay+b))2)2π σ1exp(2σ2(yμ)2)=2π (a2σ2+λ2) σλ1exp(2λ2(x(ay+b))22σ2(yμ)2+2(a2σ2+λ2)(x(aμ+b))2)=2π (a2σ2+λ2) σλ1exp(2σ2λ2(a2σ2+λ2)((a2σ2+λ2)y(μλ2+aσ2(xb)))2)=2π (a2σ2+λ2) σλ1exp((a2σ2+λ2)2σ2λ2(y(a2σ2+λ2)(μλ2+aσ2(xb)))2)
可以看出,后验概率 P ( y ∣ x ) P(y|x) P(yx)服从 N ( ( μ λ 2 + a σ 2 ( x − b ) ) ( a 2 σ 2 + λ 2 ) , σ 2 λ 2 ( a 2 σ 2 + λ 2 ) ) N(\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)}, \frac{\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}) N((a2σ2+λ2)(μλ2+aσ2(xb)),(a2σ2+λ2)σ2λ2)的正太分布,得出前面给出的结论:

当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

总结

本文简单推导了一下二项分布与Beta分布、正太分布的共轭性质,主要都是基于贝叶斯定理的简单推导,后续还有一些扩展到多维的内容,比如多项分布与狄利克雷分布、多维正太分布,后面有时间再推理记录。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值