朴素贝叶斯分类算法源于贝叶斯定理。
贝叶斯定理:P(AB)=P(A|B)P(B)=P(B|A)P(A),也即P(A|B)=P(B|A)P(A)/P(B)
贝叶斯定理的本质:两种条件概率的标书,结果相等。
先验概率:袋子里10个字母,6个A,4个B,问抓到A的概率P(A),显然P(A)=0.6。
后验概率:即条件概率,袋子里10个字母,抓了10次,6次都是A,问袋子里有几个A。
朴素贝叶斯算法可解决的问题:根据观测的现象、属性等来预测分类。即根据样本数据得到一个分类器,来进行后续预测。
举例:
有一组观测数据如下:
性别(G) | 体重(W) | 身高(H) | 肤色(C) |
男 | 重 | 高 | 黑 |
男 | 重 | 高 | 白 |
男 | 重 | 高 | 黑 |
男 | 轻 | 低 | 黑 |
男 | 重 | 低 | 白 |
女 | 轻 | 高 | 白 |
女 | 重 | 高 | 白 |
女 | 轻 | 低 | 黑 |
女 | 轻 | 低 | 白 |
我们可以通过观测数据得到以下概率:P(W|G)、P(H|G)、P(C|G),即描述男性,身高高低、体重轻重、肤色黑白的概率;女性,身高高低、体重轻重、肤色黑白的概率。
实际要解决的问题是根据观测的身高、体重、肤色来预测性别,即分类预测问题,即P(G|WHC)概率
根据贝叶斯定理有:P(G|WHC)=P(WHC|G)P(G)/P(WHC)
朴素贝叶斯是最简单的分类方法,更复杂的有SVM、神经网络。’