目录
条件概率的拓展
极大似然估计
- 试验1:抛硬币出现2正2反,求正面概率
-
这里涉及到贝叶斯学派与频率学派理论
- 频率学派认为其正面概率可以通过统计得到,也就是说世界是确定的,假设抛N次硬币有m个正面那么:
p ( θ ) = m N p(\theta)=\frac{m}{N} p(θ)=Nm - 而贝叶斯学派则认为,概率本身也是有先验分布的,由于我们对硬币一无所知,因此假设正面概率为均匀分布:
θ ∼ U ( 0 , 1 ) p ( θ ) = 1 \begin{aligned} \theta \thicksim U(0, 1)\\ p(\theta)=1 \end{aligned} θ∼U(0,1)p(θ)=1
- 频率学派认为其正面概率可以通过统计得到,也就是说世界是确定的,假设抛N次硬币有m个正面那么:
-
设正面概率为o
-
p(2正2反|o)=o^2 (1-o)^2,可以使得p最大
-
为方便求导,对上式取log将累乘转换成累加: log [ o 2 ( 1 − o ) 2 ] = log ( o 2 ) + log [ ( 1 − o ) 2 ] \log [o^2(1-o)^2]=\log(o^2)+\log[(1-o)^2] log[o2(1−o)2]=log(o2)+log[(1−o)2]
-
可以解出o=0.5
-
将这个计算过程称为:极大似然估计
-
- 概念
- 首先估计样本的分布,假设各个样本的概率为 p ( x i ∣ w ) p(x_i|w) p(xi∣w)
- 算法的目的为:求合适的w使得 L = ∑ i log p ( x i ∣ w ) L=\sum_i \log p(x_i|w) L=∑ilogp(xi∣w) 最大
- 试验2:抛硬币出现了1正3反,求硬币是正面的概率?
-
以极大似然估计的角度来看是0.25。
-
与我们预估有差距,预估就是先验概率。做试验之前已经可以估计结果。
-
如何使用经验纠正误差?
-
贝叶斯理论:先验概率如何给出。p(p(正))=p(o=0.5)
p ( o ∣ 1 正 3 反 ) = p ( o ) p ( 1 正 3 反 ∣ o ) p ( 1 正 3 反 ) p(o|1正3反)=\frac{p(o)p(1正3反|o)}{p(1正3反)} p(o∣1正3反)=p(1正3反)p(o)p(1正3反∣o)
此为最大后验概率(相当于在极大似然估计的基础上添加的正则化项)
-
经过先验概率修正后结果为3/8。
-
- 先验概率可以纠正样本数量较少的偏差。
- 假设在试验2之前,试验1结果是50正50反。先验概率较强。
- 如果试验2的结果是50正150反。样本数量较多的时候可以纠正先验概率的错误。
- 机器学习问题,需要样本大量的样本。样本数量越多所得结果越准确。
EM(Expectation-Maximization)算法
- 例子:硬币ABC,先抛A,如果硬币A是正面则抛B,否则抛C,记录B或C为正面是1,反面为0。假设记录为0001111011,求硬币ABC为正面的概率。
- 此时为带有隐藏变量的极大似然估计问题。
- 依然用极大似然估计 L i = log p ( x i ) L_i=\log p(x_i) Li=logp(xi),希望 L i L_i L