关于贝叶斯计算公式的一个问题

最新推荐文章于 2024-11-05 17:14:10 发布

最新推荐文章于 2024-11-05 17:14:10 发布 · 110 阅读

文章标签：

#算法 #网络应用 #F#

博客讨论了网络上反垃圾邮件贝叶斯算法中公式与例子的冲突。给出贝叶斯计算公式及相关定义，通过具体邮件生成的哈希表计算概率，指出公式中P1（ti）定义与例子中取值的矛盾。还提到贝叶斯应用广泛，如小叮咚智能问答可能会用到。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于贝叶斯计算公式的一个问题

bayesian
网络上流传的关于反垃圾邮件的贝叶斯算法大都和这篇类似。

但是里面的公式和作者举的例子却有冲突的地方：
公式如下：
A事件----邮件为垃圾邮件;
t1,t2 …….tn代表TOKEN串
则P（A|ti）表示在邮件中出现TOKEN串ti时，该邮件为垃圾邮件的概率。
设
P1（ti）=（ti在hashtable_good中的值）
P2（ti）=（ti在hashtable_ bad中的值）
则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）]；

作者的例子如下：
例如：一封含有"F L G"字样的垃圾邮件 A
和一封含有"法律"字样的非垃圾邮件B
根据邮件A生成hashtable_ bad，该哈希表中的记录为
F：1次
L：1次
G：1次
计算得在本表中：
法出现的概率为0。3
轮出现的概率为0。3
功出现的概率为0。3
根据邮件B生成hashtable_good，该哈希表中的记录为：
法：1
律：1
计算得在本表中：
法出现的概率为0。5
律出现的概率为0。5
综合考虑两个哈希表，共有四个TOKEN串：FLG 律
当邮件中出现"法"时，该邮件为垃圾邮件的概率为：
P=0。3/（0。3+0。5）=0。375
出现"轮"时：
P=0。3/（0。3+0）=1
出现"功"时：
P=0。3/（0。3+0）=1
出现"律"时
P=0/（0+0。5）=0；