目录
基于朴素贝叶斯预测芝加哥犯罪类型
1 朴素贝叶斯基本概念
1.1概述
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1] 。
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
1.2模型
多项式模型
该模型常用于文本分类,特征是单词,值是单词的出现次数。
在多项式模型中,设某文档d={t1,t2,...,tk},ti(i=1,2,...,k)为在该文档d中出现的单词,允许重复。
则先验概率p(c) = 类c下单词总数 / 整个训练样本的单词总数
类条件概率 p(tk|c) = (类c下单词tk在各个文档出现的数量之和+1) / (类c下单词总数 + |V|)
V是训练样本中所有单词的集合(set,即每个单词有且仅能出现一次),即该训练样本的词汇表。
在这里解释一下为何分子要加1,分母加|V|:
我们已知朴素贝叶斯的“朴素点”在于假设每个特征之间相互独立,在本例中就是任何单词之间相互独立,若在输入某个文档做分类时,发现该文档中的某个单词在词汇表中没有出现过,就会出现p(tk|c)=0,最终导致后验概率为0,如果该文档是一篇垃圾文档,将会被模型分类成有用文档,结果变得不合理了。拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,被用来解决零概率问题。拉普拉斯平滑就是在计算类条件概率时分子加1,分母加可取变量的个数(本例中为词汇表中单词的数量)。
伯努利模型
在伯努利模型中,每个特征的取值是布尔型的,即true和false,或者1和0。在文本分类中,就是一个特征有没有在一个文档中出现。
先验概率p(c)=类c下文档总数/整个训练样本的文档总数
类条件概率