朴素贝叶斯(Naive Bayesian)与语言模型(Language Model)
前不久面试了美团,不出意外得失败了,面试中问了我关于朴素贝叶斯的知识,然而我没有回答好,现在仅以此文重新来看我之前认为简单的朴素贝叶斯,本文分为以下三个部分:
- 朴素贝叶斯介绍
- 语言模型
- 两者的联系
- 参考与致谢
一、朴素贝叶斯分类器介绍
1.1 贝叶斯分类器
我们很多时候都在做分类,其实就是一个判断P(Y=1|X)和P(Y=0|X)两个值谁大谁小的。而P(Y|X)又很容易让我们联想起贝叶斯公式:
在这个公式里面,P(X)和P(Y)叫做先验概率(prior),P(X|Y)叫做条件概率或者是似然(likelihood),如果我们只是需要求出我们的待分类的东西属于哪一类而不是具体的概率值,为了方便计算,我们不需要去管P(X),因为这个值在每一类里面都是一样的,所以上述公式在实际计算里面变成了这样:
假设我们需要做二分类,也就是说Y的值是1或者是0,我们需要比较的就是P(X|Y=1)P(Y=1)和P(X|Y=0)P(Y=0)这两个值的大小,从公式里面很容易看出,我们要分类需要知道的就是P(X|Y=1)、P(Y=1)、P(X|Y=0)、P(Y=0)这四个参数,贝叶斯分类器的核心就是对于这些参数的求法。
对于P(Y)(二分类里面就是P(Y=1)和P(Y=0)),根据大数定律,我们可以通过各类样本出现的频率进行估计,对于P(X|Y),我们使用不同的方法估计就产生了不同的贝叶斯分类器,比如朴素贝叶斯分类器、半朴素贝叶斯分类器和贝叶斯网等。下面我们将着重讲解使用最广,最简单,效果还不错的朴素贝叶斯分类器。
1.2 朴素贝叶斯(Naive Bayesian)
朴素贝叶斯得其名就是因为它真的很朴素(Naive),上一章节将贝叶斯分类器的核心是估计参数,其中P(X|Y)就是重点估计的参数,P(X|Y)实际上是X各个分量的联合概率,而朴素贝叶斯分类器就假设X的各个分量之间是独立的,所以在朴素贝叶斯分类器里面,P(X|Y)的联合概率可以按照以下公式计算:
例如P(X|Y=1)的值就是:
下面继续结合例子来说:
假设我们是二分类,输入的特征是三个,也就是x1x1,x2x2,x3x3三个,为了方便计算和讲解,又假设x1x1,x2x2,x3x3的取值为0或者1,Y的值取为0或者1,那么P(X|Y)这个式子表述的意义就非常繁富了,因为这个式子最少包含P(X|Y=1)和P(X|Y=0),然后这个里面的X每一个属性的取值又是两个,P(X|Y=1)包含了P(x1=0,x2=0,x3=0|Y=1)P(x1=0,x2=0,x3=0|Y=1)、P(x1=0,x2=0,x3=1|Y=1)P(x1=0,x2=0,x3=1|Y=1)等等8个式子。
如果我们现在给定了某个样本X,它的各个维度的值是x1=1,x

本文介绍了朴素贝叶斯分类器,包括贝叶斯分类器的基本概念、朴素贝叶斯的独立性假设以及计算方法。同时,文章探讨了语言模型,特别是N-gram模型,如一元、二元和三元模型,并讨论了朴素贝叶斯在文本分类中的应用,尤其是多项式朴素贝叶斯与一元语言模型的关联。
最低0.47元/天 解锁文章
1218

被折叠的 条评论
为什么被折叠?



