数据挖掘学习笔记：朴素贝叶斯 | Python复现

原创

于 2024-10-08 14:06:06 发布 · 1.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #学习 #笔记 #人工智能 #数学建模

数据挖掘学习笔记：朴素贝叶斯

机器学习系列（四）：朴素贝叶斯（华强买瓜版） - yyxy的文章 - 知乎

十分钟，让你再也忘不掉贝叶斯分类 - VoidHaruhi的文章 - 知乎

《机器学习》（西瓜书）公式详解

【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导

到底要如何理解条件概率？ - 石溪的回答 - 知乎

如何在 Python 中从零开始实现朴素贝叶斯

贝叶斯决策论

假设当前有一个 $N$ 分类任务，即 $\mathcal{Y}=\{c_1,c_2,\cdots,c_N\}$ ，将 $\lambda_{ij}$ 定义为将一个真实标记 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。如果其目标为最小化分类错误率，则损失 $\lambda_{ij}$ 可写为：
$\lambda_{ij} = \begin{cases} 0， & i=j\ ; \\ 1， & \text{otherwise\ ,} \tag{1} \end{cases}$
此时，对于单个样本 $\boldsymbol{x}$ 而言，定义其期望损失为如下条件风险的形式：
$R(c_i|\boldsymbol{x})=\sum_{j=1}^N{\lambda_{ij}P(c_j|\boldsymbol{x})},\tag{2}$
上式中， $P(c_j|\boldsymbol{x})$ 为后验概率。

那么，贝叶斯决策论的任务就是去寻找一个判定准则 $h:\mathcal{X}\mapsto\mathcal{Y}$ ，以最小化全部样本构成的总体风险：
$R(h)=\mathbb{E}_x[R(h(\boldsymbol{x}))|\boldsymbol{x}].\tag{3}$
在定义完上述概念之后，我们就可以引入贝叶斯判定准则，即最小化总体风险 $R (h)$ 。因此，只需在每个样本上选择那个能使条件风险 $R(c|\boldsymbol{x})$ 最小的类别标记：
$h^*(\boldsymbol{x})=\underset{c\in \mathcal{Y}} {\arg\min}\ R(c|\boldsymbol{x}),\tag{4}$
此时， $h^*$ 被称为贝叶斯最优分类器。

对公式(2)展开得：
$R(c_i|\boldsymbol{x})=1*P(c_1|\boldsymbol{x})+\cdots+1*P(c_{i-1}|\boldsymbol{x})+0*P(c_i|\boldsymbol{x})+1*P(c_{i+1}|\boldsymbol{x})+\cdots+1*P(c_N|\boldsymbol{x}),\tag{5}$
对于一个 $N$ 分类任务而言，所有类别预测的概率总和一定为1，即：
$\sum_{j=1}^N{P(c_j|\boldsymbol{x})}=1.\tag{6}$
此时，条件风险可化简为：
$R(c_i|\boldsymbol{x})=1-P(c_i|\boldsymbol{x}).\tag{7}$
于是，最小化分类错误率的贝叶斯最优分类器可写为：
$h^*(\boldsymbol{x})=\underset{c\in \mathcal{Y}}{\arg\max}\ P(c|\boldsymbol{x}).\tag{8}$
对每个样本 $\boldsymbol{x}$ ，选择能使后验概率 $P(c|\boldsymbol{x})$ 最大的类别标记。

生成式模型与判别式模型

如SVM这样的机器学习模型，其本质是在特征空间内寻找一个超平面把类别样本划分开，是一个从几何角度思考的模型，并没有涉及概率的计算。所谓判别式模型，就是直接对后验概率进行建模，求出每个类别的概率进行分类。下面要将的朴素贝叶斯则属于生成式模型，其先对联合概率先进行建模，再推导出后验概率，即：
$P(c|\boldsymbol{x})=\frac{P(\boldsymbol{x},c)}{P(\boldsymbol{x})}.\tag{9}$

最低0.47元/天解锁文章