26、朴素贝叶斯及其扩展与含隐藏变量的学习方法

algae

于 2025-10-08 12:15:22 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：贝叶斯思维：从推理到决策文章标签：朴素贝叶斯贝叶斯分类器树增强朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/algae/article/details/154903516

贝叶斯思维：从推理到决策专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

朴素贝叶斯及其扩展与含隐藏变量的学习方法

1. 朴素贝叶斯分类器

1.1 文档表示与朴素贝叶斯模型

首先，我们会在两组文档中搜索，找出 100 个最常出现的单词（不包括像 “a” 或 “the” 这样的停用词）。每个文档可以用一个 100 维的向量来表示，向量的每个元素代表对应单词在该文档中出现的次数，这就是所谓的词袋表示法。不过，这种表示法比较粗糙，因为它忽略了单词的顺序。

朴素贝叶斯模型会指定单词出现次数的分布 (p(x_i|c))，其中 (x_i) 是单词 (i) 在类型为 (c) 的文档中出现的次数。我们可以使用多状态表示法，或者用连续的 (x_i) 来表示单词 (i) 在文档中的相对频率。在后一种情况下，可以使用 Beta 分布来方便地对 (p(x_i|c)) 进行建模。

1.2 朴素贝叶斯的应用与优势

尽管朴素贝叶斯方法很简单，但它对新文档的分类效果却出奇地好。直观上，条件独立性假设的一个潜在理由是，如果我们知道一个文档是关于政治的，那么这就很好地暗示了我们在该文档中可能会找到的其他单词类型。由于朴素贝叶斯在这个意义上是一个合理的分类器，并且它的存储需求最小，训练速度快，所以它被应用于对时间和存储要求较高的应用场景，比如自动对网页进行分类和垃圾邮件过滤。它也是最简单且最常用的基本机器学习分类方法之一。

2. 贝叶斯朴素贝叶斯

2.1 朴素贝叶斯的局限性

朴素贝叶斯在分类方面是一种强大的方法，但在计数较小时可能会过于自信。如果某个属性 (i) 对于类别 (c) 的计数为 0，那么无论其他属性如何，分类器都会认为输入 (x) 不可能来自类别 (c)，这是因为

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。