朴素贝叶斯(Naive Bayesian algorithm)是有监督学习的一种分类算法,它基于“贝叶斯定理”实现,该原理的提出人是英国著名数学家托马斯·贝叶斯。
一、贝叶斯定理
- P(A) 这是概率中最基本的符号,表示 A 出现的概率。比如在投掷骰子时,P(2) 指的是骰子出现数字“2”的概率,这个概率是 六分之一。
- P(B|A) 是条件概率的符号,表示事件 A 发生的条件下,事件 B 发生的概率,条件概率是“贝叶斯公式”的关键所在,它也被称为“似然度”。
- P(A|B) 是条件概率的符号,表示事件 B 发生的条件下,事件 A 发生的概率,这个计算结果也被称为“后验概率”。
- 先验概率:靠猜
- 后验概率:根据各自的特征再次做出概率预判
- 似然度:条件概率,“可能性”
二、多特征分类问题(即贝叶斯定理的典型应用)
使统计学的相关知识解决上述分类问题,分类问题的样本数据大致如下所示:
[特征 X1 的值,特征 X2 的值,特征 X3 的值,......,类别 A1]
[特征 X1 的值,特征 X2 的值,特征 X3 的值,......,类别 A2]
说明:特征之间是相互独立的,互不影响的
解决思路:这里我们先简单的采用 1 和 0 代表特征值的有无,比如当 X1 的特征值等于 1 时,则该样本属于 A1 的类别概率;特征值 X2 值为 1 时,该样本属于类别 A1 的类别的概率。依次类推,然后最终算出该样本对于各个类别的概率值,哪个概率值最大就可能是哪个类。
P(类别A1|特征X1,特征X2,特征X3,…)
上述式子表达的意思是:在特征 X1、X2、X3 等共同发生的条件下,类别 A1 发生的概率,也就是后验概率,依据贝叶斯公式,我们可以使用似然度求解后验概率,某个特征的似然度如下:
P(特征X1|类别A1,特征X2,特征X3,…)
三、朴素贝叶斯应用
假设一个学校有45%的男生和55%的女生,学校规定不能穿奇装异服,男生的裤子只能穿长筒裤,而女生可以穿裙子或者长筒裤,已知该学校穿长筒裤的女生和穿裙子的女生数量相等,所有男生都必须穿长筒裤,请问如果你从远处看到一个穿裤子的学生,那么这个学生是女生的概率是多少?
根据贝叶斯公式,列出要用到的事件概率:
学校女生的概率:P(女生)= 0.55
女生中穿裤子的概率:P(裤子|女生)= 0.5
学校中穿裤子的概率:P(裤子)= 0.45 + 0.275= 0.725
使用贝叶斯公式求解 P(女生|裤子) 的概率:
P(女生|裤子) = P(裤子|女生) * P(女生) / P(裤子) = 0.5 * 0.