一、贝叶斯算法引入
朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法,是一种基于概率分布的分类算法。
贝叶斯分类算法,通俗的来讲,在给定数据集的前提下,对于一个新样本(未分类),在数据集中找到和新样本特征相同的样本,最后根据这些样本算出每个类的概率,概率最高的类即为新样本的类。
哈哈,先用个样例来大体感受下。
这里有大学生恋爱情况的数据集,见下表:
首先要注意的是,贝叶斯算法的特征都是离散值,如果是连续值,得先对连续值进行离散化处理。对于这个数据集,我们有三个特征,即性别、专业和身高,恋爱情况为类别,1代表谈恋爱了,0代表还是single dog。
若我们现在有了一个新样本,特征为(男,计算机技术,高),那怎么用贝叶斯算法来判断这个样本的类呢,首先,我们要在数据集中找出和这个新样本特征相同的样本,即下图的红色部分:
然后,根据恋爱情况所有的类别(即0,1),计算在这些特征下每个类别的概率,概率最高的类即为新样本的类别。
在这里先不进行计算操作,由表可以大体看出,在(男,计算机技术,高)这特征下,恋爱情况为1的概率更大,即新样本的类别为1。
二、贝叶斯算法思想及其原理
理解朴素贝叶斯算法:原理与Python实践

本文介绍了朴素贝叶斯算法的基本概念,包括贝叶斯定理、特征条件独立假设以及如何利用该算法进行分类。通过示例解释了如何在离散数据上应用朴素贝叶斯,并探讨了其数学原理。最后,文章提到了算法的Python实现。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



