一、朴素贝叶斯
1、sklearn中Naive Bayes的3种形式
- BernoulliNB
假设有特征X=[x1,x1,x2,x3]
则在计算p(x|y)时,p(x1|y)只计算一次,即:p(x|y) = p(x1|y)p(x2|y)p(x3|y) - MultinomialNB
假设有特征X=[x1,x1,x2,x3]
则在计算p(x|y)时,p(x1|y)需计算2次,即:p(x|y) = p(x1|y)p(x1|y)p(x2|y)p(x3|y) - GuassianNB
假设有特征X=[x1,x1,x2,x3]
在计算p(X)时,不考虑重复词语的个数,即:p(X) = p(x1)p(x2)p(x3)
在计算p(x|y)时,考虑重复词语的个数,即:p(x|y) = p(x1|y)p(x1|y)p(x2|y)p(x3|y)
学习资料:朴素贝叶斯 [F:\data mining\ML html]
2、从NB到语言模型
1)语言模型 + NB
在处理NlP问题时,如果只考虑word,来对文本进行分类,则无法将word之间的顺序考虑进去,针对这一问题,可以将“语言模型”引入NB中,其具体方法如下:
2)语言模型 + NB 的 应用
I. 词性标注
NLTK读书笔记 — 分类与标注
II. 垃圾邮件分类
III. 中文分词
IV. 机器翻译 与 语音识别
3)平滑技术
学习资料:从NB到语言模型 [F:/data minging/ML html]
二、NB的两个简单实例
1、用NB完成语种检测
2、新闻分类
学习资料:[F:/data ming/ML html/NB实例]