在贝叶斯分类中,我们希望确定一个具有某些特征的样本属于某类标签的概率,通常记为 P (L | 特征 )。
贝叶斯定理告诉我们,可以直接用下面的公式计算这个概率:
假如需要确定两种标签,定义为 L1 和 L2,一种方法就是计算这两个标签的后验概率的比值:
其中,P(L1)和P(L2)的值根据训练集中各个类别的数据所占比例,可以简单方便的获得。
现在需要一种模型,帮我们计算每个标签的 P ( 特征 | Li)。这种模型被称为生成模型,因为它可以训练出生成输入数据的假设随机过程(或称为概率分布)。
满足不同概率分布的数据,会使得模型的训练得到不同的结果。
“朴素贝叶斯”对每种标签的生成模型进行了简单的假设,假设数据满足某种特定的概率分布,且特征变量满足一些特定的关系(线性无关、相关)
导入库
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
(1) 高斯朴素贝叶斯<