假设A是观测值(特征),B是预测值(标签)
在贝叶斯概率计算中,我们总是利用先验概率 P ( A i ∣ B j ) P(A_i|B_j) P(Ai∣Bj)来计算后验概率 P ( B j ∣ A i ) P(B_j|A_i) P(Bj∣Ai)。对于先验概率,我们用抽样的方法,利用极大似然法求得。
贝叶斯公式
经典的贝叶斯公式为:
其中B为标签值,即想预测的值;A是观测值,即样本的属性(或特征)
最左侧拆开条件概率所得的公式,分子用条件概率求,分母用全概公式求
例子理解
西瓜书中挑瓜的例子:

如果要预测【青绿,稍蜷,清脆】这样的瓜是好瓜的概率,即 P ( 好 瓜 ∣ [ 青 绿 , 稍 蜷 , 清 脆 ] ) P(好瓜|[青绿,稍蜷,清脆]) P(好瓜∣[青绿,稍蜷,清脆])
要用到朴素贝叶斯
朴素贝叶斯有一个前提是:特征之间是相互独立的,即
其中
最后求得
P ( [ 青 绿 , 稍 蜷 , 清 脆 ] ∣ 好 瓜 ) = 1 2 ∗ 0 ∗ 0 = 0 P([青绿,稍蜷,清脆]|好瓜)=\frac{1}{2}*0*0=0 P([青绿,稍蜷,清脆]∣好瓜)=21∗0∗0=0
对于 P ( [ 青 绿 , 稍 蜷 , 清 脆 ] ) P([青绿,稍蜷,清脆]) P([青绿,稍蜷,清脆])使用全概公式
将(4)带入(3)后得出最终的朴素贝叶斯预测,结束。