朴素贝叶斯及其扩展与含隐藏变量的学习方法
1. 朴素贝叶斯分类器
1.1 文档表示与朴素贝叶斯模型
首先,我们会在两组文档中搜索,找出 100 个最常出现的单词(不包括像 “a” 或 “the” 这样的停用词)。每个文档可以用一个 100 维的向量来表示,向量的每个元素代表对应单词在该文档中出现的次数,这就是所谓的词袋表示法。不过,这种表示法比较粗糙,因为它忽略了单词的顺序。
朴素贝叶斯模型会指定单词出现次数的分布 (p(x_i|c)),其中 (x_i) 是单词 (i) 在类型为 (c) 的文档中出现的次数。我们可以使用多状态表示法,或者用连续的 (x_i) 来表示单词 (i) 在文档中的相对频率。在后一种情况下,可以使用 Beta 分布来方便地对 (p(x_i|c)) 进行建模。
1.2 朴素贝叶斯的应用与优势
尽管朴素贝叶斯方法很简单,但它对新文档的分类效果却出奇地好。直观上,条件独立性假设的一个潜在理由是,如果我们知道一个文档是关于政治的,那么这就很好地暗示了我们在该文档中可能会找到的其他单词类型。由于朴素贝叶斯在这个意义上是一个合理的分类器,并且它的存储需求最小,训练速度快,所以它被应用于对时间和存储要求较高的应用场景,比如自动对网页进行分类和垃圾邮件过滤。它也是最简单且最常用的基本机器学习分类方法之一。
2. 贝叶斯朴素贝叶斯
2.1 朴素贝叶斯的局限性
朴素贝叶斯在分类方面是一种强大的方法,但在计数较小时可能会过于自信。如果某个属性 (i) 对于类别 (c) 的计数为 0,那么无论其他属性如何,分类器都会认为输入 (x) 不可能来自类别 (c),这是因为
超级会员免费看
订阅专栏 解锁全文
1712

被折叠的 条评论
为什么被折叠?



