首先,介绍下全概率公式:P(A)=∑ni=1P(Bi)⋅P(A|Bi)=∑niP(ABi)P(A)=∑i=1nP(Bi)⋅P(A|Bi)=∑inP(ABi)
而条件概率:P(A|Bi)=P(ABi)P(Bi)P(A|Bi)=P(ABi)P(Bi)
上面不是太理解也没关系。我们直接看贝叶斯公式:P(A|B)=P(B|A)⋅P(A)P(B)P(A|B)=P(B|A)⋅P(A)P(B)
可以将A看成分类的类别,而B看成是输入的特征。上面的公式变形为:
P(类别|特征)=P(特征|类别)⋅P(类别)P(特征)P(类别|特征)=P(特征|类别)⋅P(类别)P(特征)
这样就非常好理解了,我们最终的目的是分类,而输入的数据是特征,公式左边P(类别|特征)P(类别|特征),很好的说明了这一点。公式的右边的概率都可以根据现有的数据来进行计算得到。
举个例子:在一个“嫁与不嫁”的分类问题中,其中特征包括“帅?”、“性格好?”、“身高”、“上进?”
假如现在要计算一个“嫁”给一个“不帅”,“性格不好”,“身高矮”,“不上进”的人的概率。即计算P(嫁|不帅,性格不好,身高矮,不上进)P(嫁|不帅,性格不好,身高矮,不上进)的概率。
利用贝叶斯公式得:
P(嫁|不帅,性格不好,身高矮,不上进)=P(不帅,性格不好,身高矮,不上进|嫁)⋅P(嫁)P(不帅,性格不好,身高矮,不上进)P(嫁|不帅,性格不好,身高矮,不上进)=P(不帅,性格不好,身高矮,不上进|嫁)⋅P(嫁)P(不帅,性格不好,身高矮,不上进)
注意为什么叫朴素贝叶斯呢?朴素贝叶斯强调的是各个特征之间是相互独立的,即是“帅?”、“性格好?”、“身高”、“上进?”这些特征不存在关联的关系