动机概述
最近在学习贝叶斯和朴素贝叶斯,两者是有一定区别的,网上有很多介绍的文章可以自行搜索。可是我不认为自己已经完全理解,因此暂时还不敢进行相关的总结。
本文的动机是希望通过一个具体的案例,带有准确的数字的案例,按照自己所理解的贝叶斯和朴素贝叶斯的方法进行分析,希望有分析错误的地方能够得到大家的纠正
数据介绍
首先,这是我模拟生成的两组数据,正常邮件100封,垃圾邮件100封,我们假设影响一封邮件的分类的两个特征是有无词汇A和B。
在100封正常邮件中,有词汇A的有30封,有词汇B的有40封,同时有词汇A和B的有14封;
在100封垃圾邮件中,有词汇A的有60封,有词汇B的有70封,同时有词汇A和B的有40封。
问题
请问
- 当一封邮件中同时存在词汇A和B的时候,它是垃圾邮件的概率是多少?
- 只有词汇A,没有词汇B呢?
- 只有词汇B,没有词汇A呢?
- 既没有词汇A,也没有词汇B呢?
至于词汇A和词汇B之间是否独立,我这边就不假设了,请分别用贝叶斯算法和朴素贝叶斯算法进行求解。
求解
朴素贝叶斯
参考:JensLee的博客
其中:
P(A|R) = 60%
P(B|R) = 70%
P® = 50%
P(A) = 45%
P(B) = 55%
因此
因此,当一封邮件中同时有词汇A,B的时候,该邮件是垃圾邮件的概率是84.85%
贝叶斯
参考:阮一峰的博客
其中
根据公式计算得到
因此,当一封邮件中同时有词汇A,B的时候,该邮件是垃圾邮件的概率是77.78%
综上
采用贝叶斯和朴素贝叶斯方法得出的结论是不同的。感觉还是没有理解贝叶斯的精髓,因此面对这种不同的时候感觉很迷茫。希望有牛人答疑解惑。