贝叶斯/朴素贝叶斯

本文介绍了贝叶斯公式在实际问题中的应用,如拼写纠正和垃圾邮件过滤。在拼写纠正中,通过比较不同候选词的概率来推测用户的正确输入。在垃圾邮件过滤中,利用朴素贝叶斯假设各单词出现的独立性简化计算,从而判断邮件的类别。这种算法在文本分类中表现出高效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贝叶斯要解决的问题:逆向概率

贝叶斯公式

 拼写纠正实例:如果用户输入不存在的词tha,则会比较概率猜测真正想输入的单词。

P1(the|tha) = ?   P2(than|tha) = ?

P(h|D) = P(h) * P(D|h) / P(D)   由于只是比较概率,P(D)是相同的,则P1,P2正比于P(h) * P(D/h).

P(h)是这个猜测本身独立的可能性大小(先验Prior),P(D|h)是这个猜测生成我们观测到的数据的可能性大小。

朴素贝叶斯

垃圾邮件过滤实例:给定一个邮件判断是否属于垃圾邮件。D表示这个邮件,D是由N个单词组成的。用h+表示垃圾邮件,h-表示正常邮件。

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h-|D) = P(h-) * P(D|h-) / P(D)

D里面含有N个单词d1,d2,d3, P(D|h+) = P(d1,d2,d3,....,dn|h+),P(d1,d2,d3,....,dn|h+)就是说在垃圾邮件中出现跟我们目前这封邮件一模一样的邮件的概率是多大。P(d1,d2,d3,....,dn|h+)扩展为:P(d1|h+) * P(d2|d1, h+) * P(d3|d2, d1, h+) * ...但是这样参数量极大,不好计算。

假设 di 和 di-1 是完全条件无关的(朴素贝叶斯假设特征之间是独立,互不影响),那么式子就可以简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值