统计学习方法笔记,第四章朴素贝叶斯法

本文介绍了朴素贝叶斯法的学习与分类,基于贝叶斯定理和条件独立假设。通过求解后验概率最大化的类概率,利用训练集进行参数估计,并应用拉普拉斯平滑避免概率为0的问题。朴素贝叶斯法适用于小样本和样本不平衡问题,是一种高效的数据挖掘和机器学习方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

朴素贝叶斯法基于贝叶斯定理和条件独立假设,是一种生成判别的方法,因为是生成概率分布模型,它的效率很高很快,且可适用小样本问题样本不平衡问题


4.1 朴素贝叶斯法的学习与分类

已知类集合为,对于一个输入的特征向量,我们的预测问题通常可以表示为求


即求当输入向量时,分类结果y的概率最大的那一类。那么怎样求呢?

我们考虑用贝叶斯定理

那么问题就转化为求

那这俩又是什么玩意儿呢?也就是ck类的数据里面是的数据的概率,就简单了,就是ck类的概率,直接求是不可能的。因为概率分布是未知的,但是既然我们有训练集,求就可以用统计的方法,我们用ck类的样本数/总样本数代替,这也符合大数定律。

那么还有一个怎么办呢?

由于X通常是一个向量

= 显然是个比较复杂的多维概率分布。

那么我们就引入了一个假设:条件独立,写成公式就是

那么上面的式子就写成了

对于每一项

意义就很明确了,就是在ck分类中,第j维特征为的概率,当然了,我们也需要用统计的方法求。那就是ck分类的样本中,第j维特征为的样本/ck类的总样本

最后的公式为



因为对于每个ck分母都相同,因此只需要比较分母就可以了~


4.1.后验概率最小化的意义

我们设定损失函数


那么期望风险函数为




那么我们对它求最小化




因此朴素贝叶斯后验概率最大化是可以根据经验风险最小化得到的。


4.2 朴素贝叶斯法的参数估计



其实我们上面已经提到过了

,其中I为计数函数,也就是上面说的ck类的样本数/总样本数 ,这符合极大似然估计,也符合大数定律。


为了避免可能出现的条件概率为0的情况,我们使用拉普拉斯平滑

其中为X的第j维,X的类别数

同样

其中K为y的类别数



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值