贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单也是最常见的分类方法。
分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。
朴素贝叶斯分类
朴素贝叶斯分类的核心算法:
换个表达形式即为:
我们最终求P(类别|特征)即可!
给定数据如下:
问题:如果一对男女朋友,男生向女生求婚,男生的四个特点是帅,性格好,高,上进,请你判断一下女生是嫁还是不嫁?
这是一个典型的分类问题,转化为数学问题就是比较P(嫁|帅,性格好,高,上进)和P(不嫁|帅,性格好,高,上进)得概率谁的大,就能给出嫁或不嫁的答案。
联系朴素贝叶斯公式:
朴素一词解释
p(不帅、性格不好、身高矮、不上进|嫁) = p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁),那么我就要分别统计后面几个概率,也就得到了左边的概率。
为什么这个公式成立呢,学过概率论大家都知道,这个等式成立的条件需要特征之间相互独立。这也是朴素一词的来源。在数据量很大的时候,根据中心极限定理,频率=概率,所以我们进行统计即可。
朴素贝叶斯分类优缺点:
优点:
1.算法逻辑简单,易于实现
2.分类过程中时空开销小
缺点:
理论上朴素贝叶斯模型与其它分类方法相比有最小的误差率,但实际并非如此,因为假设朴素贝叶斯模型属性之间相互独立,这个假设在实际应用中往往不成立,在属性个数多或属性之间相关性较大时分类效果不好。