基于朴素贝叶斯预测芝加哥犯罪类型

本文介绍了如何使用朴素贝叶斯算法预测芝加哥犯罪类型。文章详细阐述了朴素贝叶斯的基本概念,包括模型、分类原理、算法优缺点。接着,通过实验部分展示了如何选择数据库,以及数据预处理和特征选择的过程。最后,讨论了算法实现和实验结果,表明朴素贝叶斯在犯罪类型预测中有较高的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

基于朴素贝叶斯预测芝加哥犯罪类型

1  朴素贝叶斯基本概念

   1.1概述

1.2模型

2  朴素贝叶斯的原理

2.1分类原理

2.2分类流程图

2.3算法原理

2.4算法优缺点

3  实验

3.1数据库选择

4  朴素贝叶斯实现


基于朴素贝叶斯预测芝加哥犯罪类型

1  朴素贝叶斯基本概念

   1.1概述

     朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1]  

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian ModelNBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

 

1.2模型

多项式模型

该模型常用于文本分类,特征是单词,值是单词的出现次数。

在多项式模型中,设某文档d={t1,t2,...,tk}ti(i=1,2,...,k)为在该文档d中出现的单词,允许重复。

则先验概率p(c) = c下单词总数 / 整个训练样本的单词总数

类条件概率 p(tk|c) = (c下单词tk在各个文档出现的数量之和+1) / (c下单词总数 + |V|)

V是训练样本中所有单词的集合(set,即每个单词有且仅能出现一次),即该训练样本的词汇表。

在这里解释一下为何分子要加1,分母加|V|

我们已知朴素贝叶斯的“朴素点”在于假设每个特征之间相互独立,在本例中就是任何单词之间相互独立,若在输入某个文档做分类时,发现该文档中的某个单词在词汇表中没有出现过,就会出现p(tk|c)=0,最终导致后验概率为0,如果该文档是一篇垃圾文档,将会被模型分类成有用文档,结果变得不合理了。拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,被用来解决零概率问题。拉普拉斯平滑就是在计算类条件概率时分子加1,分母加可取变量的个数(本例中为词汇表中单词的数量)。

伯努利模型

在伯努利模型中,每个特征的取值是布尔型的,即truefalse,或者10。在文本分类中,就是一个特征有没有在一个文档中出现。

先验概率p(c)=c下文档总数/整个训练样本的文档总数

类条件概率

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值