贝叶斯公式
贝叶斯推断实际上是在求参数的后验概率:
p
(
θ
∣
y
)
=
p
(
y
∣
θ
)
p
(
θ
)
p
(
y
)
p(\theta | y) = \frac{p(y|\theta)p(\theta)}{p(y)}
p(θ∣y)=p(y)p(y∣θ)p(θ)
其中,
p
(
θ
)
p(\theta)
p(θ) 为参数的先验概率(prior),
p
(
y
∣
θ
)
p(y|\theta)
p(y∣θ)称为似然函数(likelihood function),
p
(
y
)
p(y)
p(y)为称为边际似然(marginal likelihood),因为
p
(
y
)
=
∫
p
(
y
∣
θ
)
p
(
θ
)
d
θ
p(y) = \int p(y|\theta)p(\theta) d\theta
p(y)=∫p(y∣θ)p(θ)dθ
共轭分布
要发挥贝叶斯公司的最大价值离不开共轭分布,什么叫共轭分布?
在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。
似然函数是我们人为定义的,即模型的参数怎样影响输出.
模型的学习过程就是确定合理的参数 θ \theta θ:通过数据 y y y,利用贝叶斯公式把最初对参数 θ \theta θ 粗糙估计的先验分布 p ( θ ) p(\theta) p(θ),转化成更准确的后验分布 p ( θ ∣ y ) p(\theta|y) p(θ∣y).
我们当然希望参数的分布类型始终保持一致啊!如果最开始假设参数服从高斯分布,通过观测数据计算出来参数服从泊松分布,再来点观测数据,下一个后验变成伯努利分布,这样心很累啊……
有了共轭分布可以大大加速对后验分布参数的求解,比如我已经知道了先验和后验都是高斯分布,那么只要专心求出高斯后验分布的参数 μ , Σ \mu, \Sigma μ,Σ 就好了,直接省去计算边际似然的积分过程!

1万+

被折叠的 条评论
为什么被折叠?



