机器学习笔记——贝叶斯分类器(III)朴素贝叶斯分类器

朴素贝叶斯分类器
本文介绍了朴素贝叶斯分类器的基本原理,包括属性条件独立性假设及其在分类任务中的应用。通过数学公式展示了如何利用训练数据计算先验概率及类条件概率,并引入了拉普拉斯修正来解决概率估计中的零频问题。

属性条件独立性假设

贝叶斯定理:

P(cx)=P(c)P(xc)P(x)

此时后验概率P(cx)比较难以估计,由于类条件概率P(xc)是所有属性上的联合概率,难以从有限的训练样本中直接估计而得到。

处理方式

假设所有属性相互独立,即每个属性独立地对分类结果产生影响。
基于属性独立性假设

P(cx)=P(c)P(xc)P(x)=P(c)P(x)Πdi=1P(xic)

其中d为属性数目,xix在第i个属性上的取值。
由于对于所有的类别c来说P(x)相同,
于是上式可以写成:
hnb(x)=argmaxcYP(c)Πdi=1P(xic)(A)

A就是朴素贝叶斯分类器的表达式。

计算先验概率

P(c)

P(c)=|Dc||D|

P(xic)

离散属性

P(xi)=|Dc,xi||D|
连续属性

考虑概率密度函数
假定p(xic)N(μc,i,δ2c,i)其中(μc,i,δ2c,i)分别式第c类样本在属性i上取值的均值和方差。

P(xic)=12πδc,iexp(xiμc,j)22δ2c,i

如果某个属性值在训练集中没有某个类同时出现过,则判别可能出现问题。

拉普拉斯修正

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行平滑处理。
N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数。

P^(c)=|Dc|+1|D|+NP^(xic)=|Dc,xi|+1|Dc|+Ni

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值