标签: 机器学习 LDA 概率论 Dirchlet分布
1.二项分布
1.1两点分布(伯努利分布)
一个二元随机变量x∈{0,1},比如x可能描述一个射击实验的结果,x=1表示射中,x=0,表示未射中。x=1的概率被记为参数μ,因此有
其中0≤μ≤1可以得出p(x=0∣μ)=1−μ,所以x的概率分布可以写成
这里说明有时候会看到p(x=1;μ)这种概率的表示方法就是频率学派的观点,μ被看成是真正的未知的参数,是个定值。而p(x=1∣μ)这种记法是贝叶斯学派的观点,把μ被看成是未知的随机变量。
1.2二项分布
伯努利实验独立重复多次,获得观测的数据集={x1,...xN}。该数据集是独立的从p(x∣μ)中抽取x的观测值,相同过观测到的数据集(中靶次数)来预测μ的值,用最大似然估计,先写出最大似然函数:
对数似然函数为:
使得对数似然最大
对x=1(中靶次数)的观测数量计数为m,则有
此时如果N=m=3,则μML=1显然是不合理的。这是频率学派估计参数的方式,下面来看看贝叶斯学派如何解决这个问题。
正式的二项分布可以是写成
2.Beta分布
2.1Beta分布
前文已经说了,贝叶斯学派把μ当做是随机变量,自然会思考这个随机变量服从什么样分布,这个分布其实就是通常说的先验分布,先验分布一般会选择我们所求分布的共轭分布。注意到似然函数是某个因子与μx(1−μ)1−x的乘积的形式。如果我们选择一个正比于μ和(1 − μ)的幂指数的先验概率分布, 那么后验概率分布(正比于先验和似然函数的乘积)就会有着与先验分布相同的函数形式。这个性质被叫做共轭性(conjugacy)。Beta分布刚好满足条件,
其中
有性质Γ(x+1)=x!和Γ(x+1)=xΓ(x)
Beta分布前的系数不过是为了让其满足归一性条件。
Beta分布的均值和方差为:
参数α和β经常被称为超参数,因为他们控制了参数μ的概率分布。
2.2贝叶斯估计
有贝叶斯公式
后验概率为先验与二项似然函数相乘然后归一化,只保留依赖μ的因子
其中l=N−m,即为未射中的次数。可以看到关μ的函数形式与先验分布相同。这反映了先验关于似然函数的共轭性质。实际上,它依然是一个Beta分布,对比Beta分布的公式,得到归一化系数,则
如果我们的目标是尽可能好地预测下一次试验的输出,那么我们必须估计给定观测数据集D的情况下,x的预测分布。则这个预测分布的形式为
后验分布为Beta分布则:
记住这个结论。这也可以当做参数μ的估计值。
2.3重点来了
1.似然函数乘上先验Beta分布后,变成的新的Beta分布是在原来Beta分布的基础上使得α的值变大了m,
2.从Beta分布的方差公式来看,当α→∞或者β→∞的方差就趋近于零,那么是不是贝叶斯学习能够有这样的性质:随着观测到是数据越来越多,后验概率表示的不确定性将持续下降。通过证明,答案是:平均情况来看是这样的,而对于特定的数据集,有可能会后验方差大于先验方差。
3.第二种理解,就是把α和β看成是拉普拉斯平滑项。拉普拉斯平滑常见的应用场景是在朴素贝叶斯估计的时候为防止某个因素因为在训练集中未出现而导致概率为零。这里如果没有α和β时,如果m为零或者
3.多项式分布
这其实就是二项分布的推广而已
3.1多点分布
两点分布是用射击,只能取两种可能值。多点分布就是在扔骰子,它有6种互斥的可能取值。用一个向量来表示,该随机变量。假设某次特定的观测恰好对应于x3=1(投出了点数3)的状态,那么x⃗ 可以表示为:
这里满足∑Kk=1xk=1,用μk表示xk=1的概率那么x⃗ 的分布就是
其中μ⃗ =(u1,...,uk)T参数 μk要满足uk≥0 和∑kuk=1
求期望为:
3.2多项分布
同二项分布一样,多点分布独立重复N次就是多项分布。(其实有时可以不必区分这么严格)
对μ⃗ 做参数估计,肯定是要对让多点分布独立重复N次,得到观测数据集D观测值分别为x1,x2,...xN。对应的似然函数的形式为
其中mk=∑nxnk表示xk=1的观测次数,这被称为这个分布的充分统计量(sufficient statistics)
为找到μ⃗ 的最大似然解,需要是关于uk的函数lnp(D∣μ)最大,并且限制μk和必须等于1。通过拉格朗日乘子法,即最大化:
令其关于μk的导数等于0,则有:μk=−mKλ,有限制∑kμk=1,则λ=−N,因此得到最大似然解:
就是N次观测中xk=1的观测所占的比例。
多项分布可以写成:
4.Dirchlet分布
Dirchlet分布其实是Beta分布的推广,直接给出其分布形式:
还是用似然函数乘以先验,得到参数{μk}的后验分布,形式为:
后验分布又成了Dirchlet分布的形式。确定归一化系数有:
其中m⃗ =(m1,m2,....mk)T,与Beta分布类似,Dirchlet分布的参数αk可以看成xk=1的有效观测数。
同beta分布一样,
该值也被当做μk的估计值。