基本概念
首先定义 θ \theta θ为概率分布参数(原因), x x x为观测结果(结果),
-
先验概率:在没有观测结果 x x x之前,根据以往经验和分析来估计不同原因下的概率 p ( θ ) p(\theta) p(θ),知历史求因
-
后验概率:获取观测结果 x x x之后,根据 x x x来估计原因的概率即 p ( θ ∣ x ) p(\theta|x) p(θ∣x),知果求因
-
似然函数:获取观测结果 x x x之后,根据不同原因来估计 x x x的概率 p ( x ∣ θ ) p(x|\theta) p(x∣θ),知因求果
这里概率是基于给定概率分布参数、以随机变量为变量的函数,而似然是基于给定观测结果、以概率分布参数为变量的函数。 -
极其重要的公式登场——贝叶斯公式
p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) p ( x ) p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} p(θ∣x)=p(x)p(x∣θ)p(θ)
结合前面所提到的概念可以看出,
后 验 概 率 = 先 验 概 率 ∗ 似 然 函 数 结 果 概 率 分 布 后验概率=\frac{先验概率*似然函数}{结果概率分布} 后验概率=结果概率分布先验概率∗似然函数
关于这个贝叶斯推断公式的背后含义是先验概率会受到观测结果积累而变化为后验概率,具体例子可见参考资料一。 -
全概率公式:将复杂事件A的发生概率计算问题转化为它基于 n n n个两两不相容的简单事件B_i的条件概率求和问题。
p ( A ) = p ( A ∣ B 1 ) + p ( A ∣ B 2 ) + . . + p ( A ∣ B n ) p(A)=p(A|B_1)+p(A|B_2)+..+p(A|B_n) p(A)=p(A∣B1)+p(A∣B2)+..+p(A∣Bn)
进阶概念
统计领域两个对立学派:贝叶斯学派和经典学派(频率学派),最重要区别是前者将未知参数 θ \theta θ看作已知分布的随机变量,提出了最大似然估计,而后者将其看作常量,提出了最大后验估计和贝叶斯估计(暂略)。
- 最大似然估计(ML,Maximum Likelihood):
- 已知观测结果
x
x
x,
i
=
1
,
2...
n
i=1,2...n
i=1,2...n,对概率分布的参数
θ
\theta
θ进行估计,使得似然函数即观测结果
x
x
x出现的概率
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)最大,即求解
a r g m a x θ p ( x ∣ θ ) argmax_{\theta}p(x|\theta) argmaxθp(x∣θ)
- 已知观测结果
x
x
x,
i
=
1
,
2...
n
i=1,2...n
i=1,2...n,对概率分布的参数
θ
\theta
θ进行估计,使得似然函数即观测结果
x
x
x出现的概率
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)最大,即求解
- 最大后验估计(MAP,Max A Posterior):
- 在极大似然估计的基础上,引入了参数 θ \theta θ的先验概率 p ( θ ) p(\theta) p(θ)
- 即求解
a
r
g
m
a
x
θ
p
(
x
∣
θ
)
p
(
θ
)
argmax_{\theta}p(x|\theta)p(\theta)
argmaxθp(x∣θ)p(θ),由于最大后验概率为
p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) p ( x ) p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} p(θ∣x)=p(x)p(x∣θ)p(θ),且 p ( x ) {p(x)} p(x)与 θ \theta θ无关,等价与求解使后验概率 p ( θ ∣ x ) p(\theta|x) p(θ∣x)最大的 θ \theta θ
其他问题
Q:最大似然估计和最大后验概率的区别?
A:最大后验概率是在最大似然估计的基础上引入了参数的先验概率
Q:概率和似然的区别
A:前者是给定参数关于随机变量的函数,后者则反之