贝叶斯分类
贝叶斯分分类器是一种生成模型,可以处理多分类问题,是一种非线性模型。
0. 本质和概述
0.1 本质
核心:将样本判定为后验概率最大的类
朴素贝叶斯算法,是一种通过根据新样本的已有特征在数据集中的条件概率(后验概率)来判断新样本所属类别的算法,其将样本判定为后验概率最大的类。
之所以称之为“朴素”,因为它假设:
① 每个特征之间相互独立
② 每个特征同等重要。
注意:因为各个属性间相互独立,所以类条件概率等于每个属性的类条件概率的乘积
0.2 贝叶斯公式
- 贝叶斯定理
在 B 出现的前提下 A 出现的概率,等于 A 和 B 都出现的概率除以 B 出现的概率。
我们希望确定一个具有某些特征的样本属于某类标签的概率,通常记为 P (L |特征 )。贝叶斯定理告诉我们,可以直接用下面的公式计算这个概率:
(L 为某个标签)
-
直观理解
打个最简单的比方来理解贝叶斯公式的作用——为什么判断一个新东西属于某种类别(条件概率)可以通过各种类别本身的特性(类条件概率)来完成:问题:判断一个金发碧眼高鼻梁的美女来自日本还是俄罗斯。
显而易见,因为俄罗斯这个分类下的人种数据,绝大多数都是由“金发”、“碧眼”和“高鼻梁”特征的人构成的,而日本却不是。只需要根据先验知识,就可以轻易得出结论,这就是类条件概率的牛B之处。当然,前提是“独立同分布假设”,这是一切的前提。
怎么理解这句话,可以返回去看看贝叶斯公式能如何起作用。
1. 朴素贝叶模型原理
1.1朴素贝叶斯模型:将频率当成概率(不可靠)
“朴素贝叶斯”(Naïve Bayes)既可以是一种算法——朴素贝叶斯算法,也可以是一种模型——朴素贝叶斯分类模型(分类器)。
朴素贝叶斯算法可以直接利用贝叶斯定理来实现。
在实际应用中,很少有一件事只受一个特征影响的情况,往往影响一件事的因素有多个。假设,影响 B 的因素有 n 个,分别是 b1,b2,…,bn。
则 P(A|B) 可以写为:
求解该式子,最关键的是分子 P(b1,b2,…,bn|A),根据链式法则,分子有:
上面的求解过程,看起来好复杂,但是,如果从 b1 到 bn 这些特征之间,在概率分布上是条件独立的,也就是说每个特征 bi 与其他特征都不相关。
那么,当 i≠j 时,有 P(bi|A,bj)=P(bi|A) —— 无关条件被排除到条件概率之外。因此,当 b1,b2,…,bn中每个特征与其他 n-1 个特征都不相关时,就有:
注意:此处的 Z 对应 P( b1,b2,…,bn)。
上式中的 b1 到 bn 是特征(Feature),而 A 则是最终的类别(Class),所以,我们换一个写法即可得到朴素贝斯分类器的模型函数:
1.2 朴素贝叶斯模型:条件概率的参数估计
-
贝叶斯公式
-
一般化的贝叶斯公式
更一般化的情况,假设事件 A 本身又包含多种可能性,即 A 是一个集合:A={A1,A2,…,An},
那么对于集合中任意的 Ai,贝叶斯定理可用下式表示:
贝叶斯公式是要找出组成发生事件B的各个样本空间,然后预测事件B的发生来自于Ai的概率。其中 P(Ai) 称为原因的先验概率。它是在不知道事件B是否发生的情况下获取的概率。
而 P(Ai | B) 是原因的后验概率。它是在知道了事件B发生的条件下,有了这个进一步的信息后,判断原因 Ai 发生的概率有多大。一般地,如果对样本空间做了大于1的划分,即: