贝叶斯分类属于监督学习范畴,
所以就需要有训练集Set,以及特特征单词W1,W2...Wn,Y={1,0}
训练过程:
对于Y=1的正例样本 计算 P(W1|Y1),P(W2|Y1)...,P(Wn|Y1) : p(wi|Y1)= sum(wi)/sum(Y1)
对于Y=0的负样本 计算 P(W1|Y0),P(W2|Y0)...P(Wn|Y0) ....
训练完成后,对于要判定的事例E,包含 w1,w2, ...,wm个单词
取出P(W|Y0)最高的15个(可根据实际情况调整)
计算单独出现w1为负例的概率p1=p(Y0|W1) = p(W1|Y0)*p(Y0) /(p(W1|Y0)*p(Y0) + p(W1|Y1)*p(Y1)) 带入训练集合中的结果
对于没有出现的词 P(Wu|Y1) =0.01 P(Wu|Y0)=0.4
总概率为 p1*p2*..p15/(p1*p2*..p15+(1-p1)(1-p2)..(1-pn))