属性条件独立性假设
贝叶斯定理:
P(c∣x)=P(c)P(x∣c)P(x)
此时后验概率P(c∣x)比较难以估计,由于类条件概率P(x∣c)是所有属性上的联合概率,难以从有限的训练样本中直接估计而得到。
处理方式
假设所有属性相互独立,即每个属性独立地对分类结果产生影响。
基于属性独立性假设
P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πdi=1P(xi∣c)
其中d为属性数目,
由于对于所有的类别
于是上式可以写成:
hnb(x)=argmaxc∈YP(c)Πdi=1P(xi∣c)(A)
A就是朴素贝叶斯分类器的表达式。
计算先验概率
P(c)
P(c)=|Dc||D|
P(xi∣c)
离散属性
P(xi)=|Dc,xi||D|
连续属性
考虑概率密度函数
假定p(xi∣c)∼N(μc,i,δ2c,i)其中(μc,i,δ2c,i)分别式第c类样本在属性
P(xi∣c)=12π−−√δc,iexp⎛⎝−(xi−μc,j)22δ2c,i⎞⎠
如果某个属性值在训练集中没有某个类同时出现过,则判别可能出现问题。
拉普拉斯修正
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行平滑处理。
令N表示训练集