学习朴素贝叶斯分类原理(一)
模式分类的基本问题便是根据某个样本的一组特征将这个样本划分到已知的某个类别当中去。比如我们可以根据一些特征判断这是不是一个苹果,还是一个芒果。
首先我们从实际问题出发引出贝叶斯分类的思想。
借网上风趣的例子,比如我们看到了一个黑人兄弟,你猜他十有八九是来自非洲,(当然还可能来自别的地方),这是因为我们有一个经验知识:黑人当中非洲人占得比例最大。现在我们看到了一个黑人,要将他归类,从经验知识我们可以认识到他最有可能是非洲人了。这就体现了贝叶斯分类的基本思想。
给出贝叶斯公式如下:
上述问题我们的直观判断理由便是P(非洲人|黑人)是最大的。
实际上这一直观决策方法是基于最小错误率的,在其他准则下如最小风险准则,我们并不是直接看的大
小,(此处是P(非洲人|黑人)) 但是也是看关于这一概率变量的函数值的大小,这里我们不再展开,这对我们这里所要讲的朴素贝叶斯分类关系不大。我们称为后验概率,一般后验概率我们不可通过统计方法来直接获得,P(C)
为先验概率,可以比较容易统计得到,比如统计非洲人在全世界人口当中的比例(我们以频率来逼近概率)。称为类条件概率,对于上述问题我们即统计非洲人当中黑人的比例。我们对分类问题做出如下描述,进一步
说明贝叶斯分类的基本思想,以及引出朴素贝叶斯。
分类问题描述:
对一个样本观察它的n个特征
根据这些特征将这一样本划分到某一个类别Ci当中去。
类别集合:
最小错误率贝叶斯决策规则:(即上述我们很自然的想法)
如果:
则:
亦即,
如果:
则:
说白了就是找到一个类别 Ci 对应的后验概率最大,即在出现这些特征的情况下样本属于这一类的概率最大,所以
自然地我们把具有这样一些特征的样本划分至类Ci。 是相对好统计的,常为离散的几个值,而
亦即
不易进行统计得到,采用统计估计的方法其估计参数过多,假设每个特征有m1种可能取值,那么特
征组合的取值可能性有 种。
朴素贝叶斯的思想便是 假设: 中的特征相互是条件独立的。使问题得到简化。
即:
加上这一强条件,问题便简化了许多。我们只需要计算每一个可能特征的类条件概率即可。这一假设对绝大多数
的问题是不成立的,有些研究也尝试着放宽这个假设,即在一定程度上将各个维度之间的联系加入到模型当中,不过
实验效果表明,这种扩展模型的性能往往还不如原始的朴素贝叶斯模型。
总结:这一小节我学习了朴素贝叶斯模型的基本思想。朴素贝叶斯理论上具有最优的性能,但是这一决策理论除
了要求类别数目已知外,还要求先验概率及类条件概率密度均为已知。分类器的问题转化为了概率密度估计的问题,
但这一问题本身并不容易解决。朴素贝叶斯分类器的训练过程要求要有很多已知类别的样本。在某些情况下判别函数
具有更简单的形式,就是从样本出发直接设计分类器,比如支持向量机。