贝叶斯模型 基于条件概率相互独立的假设, 是一种基于纯统计的方法。它经常被应用于文本分类。该模型的算法主要是通过计算某对象Obj在类别Ci(i=0,1,2...n,一共有n类)中的概率,将Obj划分到概率最大的类别中。该模型应用起来较简便,计算结果也还不错。后续经过人们的研究,将朴素贝叶斯模型进行了改善,以降低该模型对先验概率的依赖。
下面用一个简单的例子来说明贝叶斯模型的原理:
例如:这里有一批文章,我们需要将它们分发到所属的类别中。假设一共有n个类。每篇文章有m个特征。
P(Ci/D)=P(D/Ci)*P(Ci)/P(D)
其中Ci表示第i类,D表示某篇文章
P(Ci/D)表示文章D属于Ci类别的概率
根据概率公式,可将 P(Ci/D)转换成以上形式。假设类别是平均分布的,为每类计算所有概率时,P(Ci)的值是相同的。P(D)是基于文章总量的,这也是个固定