【机器视觉系列】机器学习之三：贝叶斯分类器_贝叶斯分类计算机视觉-优快云博客

本文介绍了贝叶斯分类器的工作原理，包括训练过程、分类方法及其优缺点。重点讲解了朴素贝叶斯分类器，指出其在处理大数据量时的高效性，以及如何利用特征概率进行分类。同时，文章提到了朴素贝叶斯分类器无法处理特征组合变化的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DATE: 2016.9.22

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。也就是说，贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN和GBN。

和所有监督算法一样，贝叶斯分类器是利用样本进行训练的，每个样本包含了一个特征列表和对应的分类。假定我们要对一个分类器进行训练，使其能够正确的判断出：一个包含"python"的文档究竟是编程语言的，还是关于蛇的。

分类器记录了它迄今为止见过的所有特征，以及这些特征与某个特定分类相关的数字概率。分类器逐一接受样本的训练。
当经过某个样本的训练之后，分类器会更新该样本中特征与分类的概率，同时还会生成一个新的概率，即：在一篇属于某个分类的文档中，含有指定单词的概率。例如

从上表中我们可以看到，经过训练之后，特征与各种分类的关联性更加明确了。单词"constrictor"属于蛇的分类概率更大，而单词"dynamic"属于编程语言的概率更大。

另一方便，有些特征的所属分类则没有那么明确。比如：单词"and"出现在两个分类中的概率是差不多的（单词and几乎会出现在每一篇文档中，不管它属于哪一个分类。）分类器在经过训练之后。只会保留一个附有相应概率的特征列表，与某些其他的分类方法不同，此处的原始数据在训练之后，就没有必要再加以保存了。

当一个