1.基本思想
贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。它主要的思想就是假设:所有的特征之间是条件独立的,这样就简化了运算。
所谓的“所有特征之间是条件独立的”是指:假设某个样本有x1,x2,…,xn个特征,如果有:
P ( X ) = P ( x 1 , x 2 , . . . , x n ) = P ( x 1 ) ∗ P ( x 2 ) ∗ . . . ∗ P ( x n ) P(X) = P(x_1,x_2,...,x_n) = P(x_1)*P(x_2)*...*P(x_n) P(X)=P(x1,x2,...,xn)=P(x1)∗P(x2)∗...∗P(xn)
则说明特征之间是条件独立的。
2.条件概率和全概率
(1)条件概率(Condittional probability)
条件概率,就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
由概率统计知道其计算公式:
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(AB)=P(B)P(B∣A)P(A)
(2)全概率
如果事件A1,A2,…,An构成一个完备事件组,且 P ( A i ) ≥ 0 P(A_i)\ge0 P(Ai)≥0,i=1,2,…,n,那么对于任意一个事件B则 有:
P ( B ) = P ( B A 1 ) + P ( B A 2 ) + . . . + P ( B A n ) P(B) = P(BA_1)+P(BA_2)+ ... + P(BA_n)