第一部分:朴素贝叶斯理论介绍
公式如下:
其中:p(A)、 P(B)称为先验概率,P(A|B)、 P(B|A)称为后验概率、条件概率。
贝叶斯理论描述这样一件事情:当我们知道历史数据,即等式右边,就可以预测未来,等式左边。
虽然预测是有一定概率的,但它仍然给我们预测未来一个可以参考的数据,即概率。
再通俗一点,上述公式表述为:通过历史数据知道A的先验概率,以及B的后验概率时,我们就可以通过贝叶斯理论,估算A的后验概率(在特征B出现的情况下)。
经典的India人糖尿病预测问题就是这样计算出来的。
之所以成为朴素贝叶斯:是因为在讨论各个特征时,假设特征之间是相互独立的,这样贝叶斯计算比较方便。
第二部分:朴素贝叶斯的处理的一般流程为: