朴素贝叶斯与简单线性回归:原理、实现与应用
1. 朴素贝叶斯算法
1.1 问题背景
在社交网络中,用户可以互相发送消息,但存在一些不良分子发送垃圾邮件,如致富计划、无需处方的药品广告和营利性数据科学认证项目等。为了解决用户的抱怨,需要利用数据科学方法过滤这些垃圾消息。
1.2 简单垃圾邮件过滤器
假设从所有可能的消息中随机选择一条消息,设事件 $S$ 为“消息是垃圾邮件”,事件 $B$ 为“消息包含单词 bitcoin”。根据贝叶斯定理,消息包含 bitcoin 时是垃圾邮件的概率为:
[P(S|B)=\frac{P(B|S)P(S)}{P(B|S)P(S)+P(B|\neg S)P(\neg S)}]
如果假设任何消息是垃圾邮件和非垃圾邮件的概率相等,即 $P(S)=P(\neg S)=0.5$,则公式简化为:
[P(S|B)=\frac{P(B|S)}{P(B|S)+P(B|\neg S)}]
例如,如果 50% 的垃圾邮件包含单词 bitcoin,而只有 1% 的非垃圾邮件包含该单词,那么任何包含 bitcoin 的邮件是垃圾邮件的概率为:
[\frac{0.5}{0.5 + 0.01}\approx98\%]
1.3 更复杂的垃圾邮件过滤器
假设我们有一个包含多个单词 $w_1,\cdots,w_n$ 的词汇表,用 $X_i$ 表示“消息包含单词 $w_i$”的事件。同时,我们估计出垃圾邮件包含第 $i$ 个单词的概率 $P(X_i|S)$ 和非垃圾邮件包含第 $i$ 个单词的概率 $P(X_i|\neg S)$。
朴素贝叶斯的关键
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



