Discrete Mathematics and Its applications - 离散数学及其应用 读书笔记 ( 二 )

本文通过具体案例解析了基于贝叶斯理论的垃圾邮件过滤器工作原理,详细阐述了如何利用邮件中特定词汇出现的概率来计算邮件是否为垃圾邮件的概率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《 Discrete 》书中关于 Bayesian Spam Filter 的应用, 中文可以翻译为 “基于贝叶斯理论的垃圾邮件过滤器”

先是一个简单的例子,基于单个单词的删选词,原文有个例子:

Suppose that we have found that the word “Rolex” occurs in 250 of 2000 messages known to be spam and in 5 of 1000 messages known not to be spam. Estimate the probability that an incoming message containing the work “Rolex” is spam, assuming that it is equally likely that an incoming message is spam or not spam. If our threshold for rejecting a message as spam is 0.9, will we reject such messages?

大意就是,已知: “ Rolex ” 这个单词在已经标为 spam 的 2000 封邮件中, 总共出现了 250 次; 在标为不是 spam 的 1000 封邮件中, 共出现了 5 次。 假设一封邮件是不是 spam 邮件是平等来看待的,也就是 各占 12 的概率,那么如果有一封邮件中出现了 Rolex 这个单词, 这封邮件是 spam 的概率是多少? 如果我们设定超过 0.9 的概率就要拒收,那么我们对这类邮件是不是要拒收?

思路是这样的:
1) 假设 S 是邮件是 Spam 的事件, 那么 S¯ 就代表不是 spam 的事件;
2) 假设 E 是邮件里出现 Rolex 的事件, 那么 E¯ 就代表不出现 Rolex 的事件;
3) Rolex 在整个 2000 封已经被标为 spam 的邮件中共出现概率是 p(w)=nB(w)/|B| , 在整个 1000 封已经被标为不是 spam 邮件中共出现的概率是 q(w)=nG(w)/|G| ; B 代表是 spam 邮件的集合总体, G 代表是非 spam 邮件的集合总体;
4) 假设一封邮件既有可能是 spam , 也有可能不是 spam, 各占 50% 的概率
5) 为了方便解释, 只设置一个单词来判定是不是 spam.

目的是求解: P( S|E)

P(S|E)=P(SE)P(E)=P(ES)P(E)=P(E|S)P(S)P(E|S)P(S)+P(E|S¯)P(S¯)=P(E|S)0.5P(E|S)0.5+P(E|S¯)0.5=P(E|S)P(E|S)+P(E|S¯)=25020002502000+510000.962

所以求解公式最终也可以演化为:

P(S|E)=r(w)=p(w)p(w)+q(w)

当然只用一个单词来判断邮件是不是 spam 未免有失偏颇,下面推到有两个单词来判定结果:

P(S|E1E2)=P(S(E1E2))P(E1E2)=P(E1E2|S)P(S)P(E1E2|S)P(S)+P(E1E2|S¯)P(S¯)=P(E1EU2|S)P(E1E2)|S)+P(E1E2|S¯)=p(w1)p(w2)q(w1)q(w2)+p(w1)p(w2)

由此可以推导出多个单词来判断 spam 的公式:

p(S|i=1kEi)=ki=1p(Ei|S)ki=1p(Ei|S)+ki=1p(Ei|S¯)

用 spam 邮件和非 spam 邮件出现的词频来计算这个公式:

r(w1,w2..wk)=ki=1p(wi)ki=1p(wi)+ki=1q(wi)

对于山东大学软件学院离散数学这门课程的相关信息如下: 离散数学是计算机科学和信息技术领域的重要基础学科之一,在山东大学软件学院的教学计划里占有重要地位。关于离散数学的具体课程资料、教学大纲以及推荐的参考书目,通常可以通过以下几个途径获取: 访问官方渠道提供的最新资源: - 浏览山东大学官方网站或者软件学院分站,查找最新的课程介绍页面。 - 登入学生在线学习平台或教务系统,查看由授课教师上传的课程材料。 联系学校内部人员寻求帮助: - 向正在就读的学生咨询,他们可以分享课堂笔记或是老师指定的学习参考资料。 - 如果可能的话,直接与教授此科目的讲师取得联络,询问有关教材选择的问题。 查阅公开可用的数据源: - 利用学术搜索引擎如Google Scholar等寻找相关的论文或讲义来补充理解。 - 加入专业的论坛或社交群组讨论区交流心得经验,并收集其他成员共享的知识点总结文档。 以下是几个常见的离散数学参考书籍,这些书籍广泛被国内外高校采用作为教材: - Kenneth H. Rosen,《Discrete Mathematics and Its Applications》,这本书全面覆盖了离散数学的主要主题并且应用实例丰富。 - Richard Johnsonbaugh,《Discrete Mathematics》,适合初学者入门阅读,内容详实易于理解。 - Susanna S.Epp,《Discrete Mathematics with Applications》,注重逻辑推理训练,有助于提高抽象思维能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dbLenis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值