LDA模型学习之(一)——贝叶斯公式

   近几天在学习LDA模型。真的是让人纠结!都看了两天了,不知所云!

看到网上一大牛说:“其实这个模型不难理解”真的想吐血!想想也释然了:

好歹也比我多读了八年书嘛!八年,日本鬼子也搞定了,别说一个小小的模型。

     好了,抱怨一下也就可以了,模型还是得研究的!

 从贝叶斯开始吧!

      把已经出尘脱俗的《概率论》<同济大学编写的:特薄的那一本>翻出来,好好看了一个上午:感觉不难理解。

           就是用到了乘法定理全概率公式

乘法定理:两事件的积事件的概率 等于 其中一事件的概率另一事件在前一事件出现下条件概率乘积。P(AB)= P(A)*P(B|A) = P(B)*P(A|B)

   还是举例来说明乘法定理吧,不然肯定被拍砖。

      问题:相亲会上,一共有100个女孩,其中有10个长得不怎么漂亮。我连续相亲两次,第一次跟我相亲的女孩被吓到了,相完亲就走了。问:我第二次才相到漂亮女孩的概率。  

解答过程:按题意,第一次相到的是不怎么漂亮的女孩(设为事件A),第二次相到的是漂亮的女孩(设为事件B),则有:

                第一次相到的是不怎么漂亮的女孩:           P(A)=10/100;

    在走了一个女孩的前提下,相到的是漂亮的女孩:P(B|A)=90/99<P(B|A)表示在A事件出现的前提下B事件发生的概率>

  所以,第二次才相到漂亮女孩的概率为P(AB)=P(A)*P(B|A)=(10/100)* (90/99)=1/11

    全概率公式:

               全概率公式既需要用到乘法定理,也需要用到加法定理。我自己的学习方法是用到什么学什么(如无必要,勿增实体)。那好吧,先看一下加法定理。

加法定理:

          (公理)对于两两互斥的可数多个随机事件A1,A2…,有P(A1+A2+……)=P(A1)+P(A2)+……

           (性质)设有限多个随机事件A1,A2,…,An两两互斥,那末 

P(A1+A2+……An)=P(A1)+P(A2)+……P(An).

               上面的公理和性质合起来称为:加法定理。

加法定理也不难理解,还是说相亲的例子吧!

        假设相亲会上有90个很漂亮的女孩,3个不怎么漂亮的女孩。同样,我相一个女孩,吓走一下女孩。问:我两次相亲“一次相到漂亮女孩,一次相到不怎么漂亮女孩”的概率。

         解答:设“一次相到漂亮女孩,一次相到不怎么漂亮女孩”为事件A,那么

就可设“第一次相到漂亮女孩,第二次相到不怎么漂亮女孩”为事件A1

    可设“第二次相到漂亮女孩,第一次相到不怎么漂亮女孩”为事件A2

          显然A1和A2互斥并且A=A1+A2;              P(A)=P(A1)+P(A2)

如果细心,我们会发现,这里也用到了乘法定理

P(A1)=90/93 *  (3/92)                P(A2)=90/93 * (90/92)  所以P(A)=45/713

看来,虽然有这么多漂亮的女孩,我相亲成功的概率也太低了点。

  说跑题了,回到全概率公式上。

   假设事件A1,A2,……,An,两两互斥,且事件B为事件A1+A2+……An的子事件

P(B) = P(A1)P(B|A1)+ P(A2)P(B|A2) +……+ P(An)P(B|An)

还是举例说明吧:相亲会上有300个女孩(大规模的相亲会),其中四川区有150个女孩,江南区有90个女孩,上海区有60个女孩。四川、江南、上海女孩中,不怎么漂亮的女孩分别有15个,6个,3个。问:我任选一个区去相亲,然后在这个区中相到漂亮女孩的概率。

   则可以:依次以A1,A2,A3表示我选择的是“四川、江南、上海区的女孩”,以B事件表示相到的是漂亮的女孩。

于是有:

P(A1)=150/300=5/10<选择四川区> 

P(A2)=90/300=3/10<选择江南区>

P(A3)=60/300=2/10<选择上海区>

P(B|A1)=9/10<四川区里漂亮女孩的概率>  ; 

P(B|A2)=14/15<江南区里漂亮女孩的概率>   ; 

P(B|A3)=19/20<上海区里漂亮女孩的概率> ;

按全概率公式:

P(B)=P(A1)P(B|A1)+ P(A2)P(B|A2) +……+ P(An)P(B|An)=0.92

这样把要求调整后,我相到漂亮女孩的概率就大得多了! ^_^

好了,终于进入到贝叶斯了!

好,依然采用上面的例子,问题变成:假如我已经相到了漂亮的女孩,但是我不知道她是哪个地方的。问:这个女孩来自四川、江南、上海的概率有多大。

计算的中心就变成了:P(A1|B)、P(A2|B)、P(A3|B)。

     这个问题就引出了贝叶斯公式:

        P(Ai|B) =  P(Ai)P(B|Ai)/ (P(A1)P(B|A1)+……+P(An)P(B|An))

至于这个公式的推导,就得依靠前面的乘法定理和全概率公式了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值