基于朴素贝叶斯的垃圾邮件检测
1. 探索朴素贝叶斯
朴素贝叶斯分类器属于概率分类器家族,它通过计算数据的每个预测特征(也称为属性)属于每个类别的概率,来预测数据样本在所有类别上的概率分布,以及最可能关联的类别。它的特别之处体现在其名称的两个方面:
- 贝叶斯 :根据贝叶斯定理,将给定所属类别下观察到输入特征的概率映射到类别上的概率分布。
- 朴素 :通过假设预测特征相互独立,简化概率计算。
2. 贝叶斯定理示例
在深入了解分类器之前,理解贝叶斯定理非常重要。设A和B表示两个事件,事件可以是明天会下雨、从一副牌中抽出两张王牌、一个人患有癌症等。在贝叶斯定理中,给定B为真时A发生的概率可以通过以下公式计算:
下面通过几个例子来理解贝叶斯定理:
- 例1:硬币问题
假设有两枚硬币,一枚不公平,正面朝上的概率为90%,反面朝上的概率为10%;另一枚是公平的。随机选择一枚硬币并抛掷,如果得到正面,那么这枚硬币是不公平硬币的概率是多少?
设事件U为选择不公平硬币,事件H为得到正面。则可以按照以下方式计算给定正面时选择不公平硬币的概率 :
已知 为90%, 为0.5(因为是从两枚硬币中随机选择)。然而,计算得到正面的概率 并不简单,因为有两个事件可能导致得到正面——选择公平硬币F和选择不公平硬币U。所以它变为:
- 例2:癌症筛查问题
假设医生报告了10,000人的癌症筛查测试情况如下表所示:
| | 癌症 | 无癌症 | 总计 |
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



