多项式模型:(以词为粒度,目标文档中没出现的词不参与后验概率计算)
先验概率P(c)= 类c下单词总数 / 整个训练样本的单词总数
类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1) / (类c下单词总数+|V|)
P(yes | d)=P(yes)×P(Chinese|yes) ×P(Japan|yes) ×P(Tokyo|yes)
伯努利模型:(以文档为粒度,目标文档中没出现的词也参与概率计算)
P(c)= 类c下文件总数 / 整个训练样本的文件总数
P(tk|c)=(类c下包含单词tk的文件数+1) / (类c的文档总数+2)
P(yes | d)=P(yes)×P(Chinese|yes) ×P(Japan|yes) ×P(Tokyo|yes)×(1-P(Beijing|yes)) ×(1-P(Shanghai|yes))×(1-P(Macao|yes))
居然还有严谨的推导!