假设有N种可能的类别标记,记为:\[y=\left \{ c_{1},c_{2}...c_{N} \right \}\]现有一个样本x给定其各个属性的取值\[x_{i},i=1...d\],d为x所包含的属性的数目,若将x归为第c类的第k个属性,则有
\[p(c|x)=\frac{p(c)p(x|c)}{p(x)}\](1)
然后根据计算每个属性的概率,取最大的概率值作为x属于的c类的值。朴素贝叶斯分类器的最基本最核心的思想是“假设已有样本中各个属性之间独立”,由此有:
\[p(c|x)=\frac{p(c)p(x|c)}{p(x)}=\frac{p(c)}{p(x)}\prod_{i=1}^{d}p(x_{i}|c)\] (2)
又因为p(x)都是相同的,所以贝叶斯判定准则为
\[h_{nb}(x)=arg\cdot max_{c\subseteq y}p(c)\prod_{i=1}^{d}p(x_{i}|c)\]\](3)
即判定准则取最大时x属于的类别 ci;
估计类的先验概率P(c)的计算是基于训练集D的,并为每个属性估计条件概率\[p(x_{i}|c)\]。
令 \[D_{c}\]表示训练集D种c类样本的集合,若有充足的独立同分布样本,则有
\[p(c)= \frac{|Dc|}{|D|}\](4)
对于离散属性而言,令\[D_{c,x_{i}}\]表示\[D_{c}\]中