贝叶斯、朴素贝叶斯的一些思考

作者为更好理解贝叶斯和朴素贝叶斯,通过模拟两组邮件数据,设置有无词汇A和B两个特征,提出不同词汇组合下邮件为垃圾邮件的概率问题,分别用两种算法求解,得出不同结论,作者表示仍未理解贝叶斯精髓,希望得到解答。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

动机概述

最近在学习贝叶斯和朴素贝叶斯,两者是有一定区别的,网上有很多介绍的文章可以自行搜索。可是我不认为自己已经完全理解,因此暂时还不敢进行相关的总结。

本文的动机是希望通过一个具体的案例,带有准确的数字的案例,按照自己所理解的贝叶斯和朴素贝叶斯的方法进行分析,希望有分析错误的地方能够得到大家的纠正

数据介绍

首先,这是我模拟生成的两组数据,正常邮件100封,垃圾邮件100封,我们假设影响一封邮件的分类的两个特征是有无词汇A和B。

在100封正常邮件中,有词汇A的有30封,有词汇B的有40封,同时有词汇A和B的有14封;
在100封垃圾邮件中,有词汇A的有60封,有词汇B的有70封,同时有词汇A和B的有40封。

问题

请问

  1. 当一封邮件中同时存在词汇A和B的时候,它是垃圾邮件的概率是多少?
  2. 只有词汇A,没有词汇B呢?
  3. 只有词汇B,没有词汇A呢?
  4. 既没有词汇A,也没有词汇B呢?

至于词汇A和词汇B之间是否独立,我这边就不假设了,请分别用贝叶斯算法和朴素贝叶斯算法进行求解。

求解

朴素贝叶斯

参考:JensLee的博客
在这里插入图片描述
其中:
P(A|R) = 60%
P(B|R) = 70%
P® = 50%
P(A) = 45%
P(B) = 55%
因此
在这里插入图片描述
因此,当一封邮件中同时有词汇A,B的时候,该邮件是垃圾邮件的概率是84.85%

贝叶斯

参考:阮一峰的博客
在这里插入图片描述
其中
在这里插入图片描述
P(R|B) = 63.64%
根据公式计算得到
在这里插入图片描述
因此,当一封邮件中同时有词汇A,B的时候,该邮件是垃圾邮件的概率是77.78%

综上

采用贝叶斯和朴素贝叶斯方法得出的结论是不同的。感觉还是没有理解贝叶斯的精髓,因此面对这种不同的时候感觉很迷茫。希望有牛人答疑解惑。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值