机器学习笔记(五)朴素贝叶斯算法

目录

一、定义

贝叶斯方法

朴素贝叶斯算法

 二、贝叶斯公式

先验概率

后验概率

贝叶斯定理

三、朴素贝叶斯分类器

四、拉普拉斯修正

五、垃圾邮件分类 

数据集

朴素贝叶斯算法

运行结果

小结


一、定义

贝叶斯方法

贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。 

朴素贝叶斯算法

朴素贝叶斯算法(Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。

朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。

 二、贝叶斯公式

先验概率

        P(c_{j})代表还没有训练模型之前,根据历史数据/经验估算c_{j}拥有的初始概率。P(c_{j})常被称为c_{j}的先验概率(prior probability) ,它反映了c_{j}的概率分布,该分布独立于样本。

后验概率

         给定数据样本xc_{j}成立的概率P(c_{j}|x)被称为后验概率(posterior probability),因为它反映了在看到数据样本xc_{j}成立的置信度。

贝叶斯定理

 已知两个独立事件A和B,事件B发生的前提下,事件A发生的概率可以表示为P(A|B),即上图中橙色部分占红色部分的比例,即:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值