机器学习之朴素贝叶斯

本文深入探讨了朴素贝叶斯分类器,包括其基础理论、贝叶斯决策理论、数学原理和实际应用。介绍了如何利用条件概率进行分类,并通过文本分类实例解释了如何构建和调整分类器。此外,还讨论了朴素贝叶斯的变体,如高斯、多项式和伯努利分布的朴素贝叶斯模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习之朴素贝叶斯

一、朴素贝叶斯

朴素贝叶斯(Naive Bayes)是一种基于概率理论的分类算法,以贝叶斯理论为理论基础,通过计算样本归属于不同类别的概率来进行分类,是一种经典的分类算法。朴素贝叶斯是贝叶斯分类器里的一种方法,之所以称它朴素,原因在于它采用了特征条件全部独立的假设

二、贝叶斯决策理论

朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。

朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。

假设现在有一个数据集,它由两类数据组成(红色和蓝色),数据分布如下图所示
img

现在用p 1 ( x , y ) p1(x,y)p1(x,y)表示数据点( x , y ) (x,y)(x,y)属于类别1(图中圆点表示的类别)的概率,用p 2 ( x , y ) p2(x,y)p2(x,y)表示数据点( x , y ) (x,y)(x,y)属于类别2(图中三角形表示的类别)的概率,那么对于一个新的数据的( x , y ) (x,y)(x,y),可以用下面的规则来判断它的类别:

如果p 1 ( x , y ) > p 2 ( x , y ) p1(x,y) > p2(x,y)p1(x,y)>p2(x,y),那么类别为1
如果p 1 ( x , y ) < p 2 ( x , y ) p1(x,y) < p2(x,y)p1(x,y)<p2(x,y),那么类别为2
也就是说,会 选择高概率所对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策

三、相应的数学知识

1、贝叶斯准则

贝叶斯准则告诉我们如何交换条件概率中的条件与结果,即如果已知P(x|c),要求P(c|x),那么可以使用下面的计算方法

img

2、全概率公式

除了条件概率以外,在计算p 1 p1p1和p 2 p2p2的时候,还要用到全概率公式

设事件A1,A2,A3…An两两互斥,又事件B满足img

全概率公式可以写为img

3、贝叶斯推断

对条件概率公式进行变形,可以得到如下形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CGyupzH0-1660187309782)(C:\Users\HP\AppData\Roaming\Typora\typora-user-images\1660186658286.png)]

P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断。

P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估

img

称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率

所以,条件概率可以理解成下面的式子:后验概率 = 先验概率 x 调整因子

四、使用条件概率来分类

贝叶斯决策理论要求计算两个概率 p1(x,y)和p2(x,y)
如果p1(x,y)>p2(x,y),那么类别为1
如果p1(x,y)<p2(x,y),那么类别为2

具体地,应用贝叶斯准则得到:

img

这些符号所代表的具体意义是:给定某个由x、y表示的数据点,那么该数据点来自类别c1和来自类别c2的概率是多少?
使用贝叶斯准则,可以通过已知的三个概率值来计算未知的概率值

五、文本分类举例

要从文本中获取特征,需要先拆分文本。这里的特征是来自文本的词条(token),一个词条是字符的任意组合。可以把词条想象为单词,也可以使用非单词词条,如URL、IP地址或者任意其他字符串。然后将每一个文本片段表示为一个词条向量,其中值为1表示词条出现在文档中,0表示词条未出现。

以在线社区的留言板为例。为了不影响社区的发展,我们要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类别:侮辱类和非侮辱类,使用1和0分别表示

1、构建词向量

把文本看成 单词向量 或者 词条向量,也就是说将句子转换为向量。考虑出现在所有文档中的所有单词,再决定将哪些词纳入词汇表或者说所要的词汇集合,然后必须要将每一篇文档转换为词汇表上的向量。简单起见,先假设已经将本文切分完毕,存放到列表中,并对词汇向量进行分类标注

def loadDataSet():
    postingList=[['my', 'dog', 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值