贝叶斯/朴素贝叶斯

十二壳

于 2022-09-09 16:12:14 发布

阅读量250

点赞数

文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45436729/article/details/126783894

版权

本文介绍了贝叶斯公式在实际问题中的应用，如拼写纠正和垃圾邮件过滤。在拼写纠正中，通过比较不同候选词的概率来推测用户的正确输入。在垃圾邮件过滤中，利用朴素贝叶斯假设各单词出现的独立性简化计算，从而判断邮件的类别。这种算法在文本分类中表现出高效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯要解决的问题：逆向概率

贝叶斯公式：

拼写纠正实例：如果用户输入不存在的词tha，则会比较概率猜测真正想输入的单词。

P1(the|tha) = ? P2(than|tha) = ?

P(h|D) = P(h) * P(D|h) / P(D) 由于只是比较概率，P(D)是相同的，则P1,P2正比于P(h) * P(D/h).

P(h)是这个猜测本身独立的可能性大小（先验Prior），P(D|h)是这个猜测生成我们观测到的数据的可能性大小。

朴素贝叶斯

垃圾邮件过滤实例：给定一个邮件判断是否属于垃圾邮件。D表示这个邮件，D是由N个单词组成的。用h+表示垃圾邮件，h-表示正常邮件。

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h-|D) = P(h-) * P(D|h-) / P(D)

D里面含有N个单词d1,d2,d3, P(D|h+) = P(d1,d2,d3,....,dn|h+)，P(d1,d2,d3,....,dn|h+)就是说在垃圾邮件中出现跟我们目前这封邮件一模一样的邮件的概率是多大。P(d1,d2,d3,....,dn|h+)扩展为：P(d1|h+) * P(d2|d1, h+) * P(d3|d2, d1, h+) * ...但是这样参数量极大，不好计算。

假设 di 和 di-1 是完全条件无关的（朴素贝叶斯假设特征之间是独立，互不影响），那么式子就可以简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ...

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。