1 引言
在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P(c | x) 的求解转化为求解 P(c)和 P(x | c),P(c) 根据大数定律容易求得,所以 P(x | c)成为了最核心也是最迫切需要求解的问题。下面,借助一个例子解释它是如何求解的,这个求解思想有一个很朴素的名字:朴素贝叶斯分类器。
2 一堆苹果
笔者比较喜欢吃苹果,所以举例子总是会想起苹果,所以去超市买水果时,苹果往往是必备的。长年累月,摸索了一套挑选苹果的方法,一般红润而圆滑的果子都是好苹果,泛青无规则的一般都比较一般,现在根据之前几次买过的苹果,已经验证过了10个苹果,主要根据大小,颜色和形状这三个特征,来区分是好是坏,如下:
编号 大小 颜色 形状 好果
1 小 青色 非规则 否
2 大 红色 非规则 是
3 大 红色 圆形 是
4 大 青色 圆形 否
5 大 青色 非规则 否
6 小 红色 圆形 是
7 大 青色 非规则 否
8 小 红色 非规则 否
9 小 青色 圆形 否
10 大 红色 圆形 是
现在在超市我正要买的一个苹果的特征如下:
大小 颜色 形状 好果
大 红色 圆形 ?
问是好果还是一般的苹果?
假定,苹果的三个特征:大小,颜色,形状,是相互独立的,言外之意它们之间没有相关关系,关于相关关系的概念,请参考:相关系数 。
2 引出:类条件概率
第1节中的例子:10条苹果的数据为例,来解释下贝叶斯公式中一个非常重要的概率:P(x | c) ,理解它关系到对贝叶斯分类器整体的理解,因此好好理解下。
首先它是一个条件概率,是在 c 发生的条件下,x 出现的概率。 那么 c 是什么? c是整个数据集中所有种类中的一种,比如是好苹果,这个类; x 是在好苹果这个类别中所有属性的可能取值,在上面这个例子中,一共有3个属性,每个属性有2个不同取