贝叶斯公式
P(Bi|A)=P(B|Ai)P(Ai)∑ni=1P(B|Ai)P(Ai)
在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。(也称为似然函数)
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
思考
假设现在给定某些样本D,在这些样本中计算某结论
A1,A2,⋯,An
出现的概率
P(Ai|D)
,我们想最大化这个概率的话就得到如下的式子:
maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)=maxP(D|Ai)P(Ai)=maxP(D|Ai)
这里如果样本D给定的话那么 P(D) 是定值,然后我们假设 P(Ai) 近似相等就得到了上述的结果。这意味着什么呢?意味着我们想要最大化后验概率 P(Ai|D) 则只需要最大化似然函数 P(D|Ai) 。于是这就和最大似然估计联系起来了。
最大似然估计
设总体样本分布为
f(x,θ),x1,x2,⋯,xn
为该总体样本采样得到的样本,因为
x1,x2,⋯,xn
独立同分布,于是它们的连个概率密度函数为:
L(x1,x2,⋯,xn;θ1,θ2,⋯,θn)=∏i=1nf(xi;θ1,θ2,⋯,θn)
这里, θ 被看作是固定的但是未知的参数,我们反过来想,因为样本年已经存在了,于是可以将 x1,x2,⋯,xn 看作是固定的且已知的。于是 L(x,θ) 就是关于 θ 的函数,也就是似然函数。
最大似然函数的求解
通常我们对似然函数取对数,得到对数似然,再经行求解.
对上式子取对数:
logL(θ1,θ2,⋯,θn)=∑i=1nlogf(xi;θ1,θ2,⋯,θn)
然后对 θ 求偏导并令导数等于0解出 θ 。