什么是朴素贝叶斯

彬彬侠

于 2024-11-25 12:08:31 发布

阅读量2.6k

点赞数 27

分类专栏：机器学习(笔记) 文章标签：贝叶斯概率模型朴素贝叶斯贝叶斯概率论机器学习人工智能

本文链接：https://blog.youkuaiyun.com/u013172930/article/details/144024054

版权

360 篇文章

订阅专栏

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理和特征条件独立性假设的简单而有效的分类算法。它被称为“朴素”，是因为它假设数据的各特征在类别已知的情况下是相互独立的，这一假设在实际情况中通常不完全成立，但算法在很多任务中仍然表现良好。

朴素贝叶斯的基本思想是：通过给定特征 $X$ 的条件下，预测样本属于某类别 $c_k$ 的后验概率 $P(c_k|X)$ ，选择后验概率最大的类别作为分类结果。

根据贝叶斯定理，后验概率可以表示为：
$P(c_k|X) = \frac{P(X|c_k)P(c_k)}{P(X)}$

由于 $P (X)$ 对所有类别 $c_k$ 是相同的，因此在实际分类中可以忽略，分类只需要比较 $P(X|c_k)P(c_k)$ 。

为了简化计算，朴素贝叶斯假设特征之间是条件独立的，即：
$P(X|c_k) = P(X^{(1)}, X^{(2)}, \cdots, X^{(n)}|c_k) = \prod_{j=1}^n P(X^{(j)}|c_k)$

计算先验概率：
根据训练数据中每个类别的样本比例，计算每个类别的先验概率 $P(c_k)$ ：
$P(c_k) = \frac{\text{类别 $c_k$ 的样本数}}{\text{样本总数}}$
计算条件概率：
根据训练数据，计算每个特征在各类别条件下的条件概率 $P(X^{(j)}|c_k)$ 。

对于一个新的样本 $(x^{(1)}, x^{(2)}, \cdots, x^{(n)})$ ，根据公式：
$P(c_k|X) \propto P(c_k) \prod_{j=1}^n P(X^{(j)}|c_k)$
比较所有类别的 $P(c_k|X)$ ，选择概率最大的类别作为分类结果：
$\hat{y} = \arg\max_{c_k} P(c_k) \prod_{j=1}^n P(X^{(j)}|c_k)$

根据特征的类型，朴素贝叶斯可以分为以下几类：

用于连续型数据，假设每个类别的特征服从高斯分布（正态分布）。
条件概率计算公式：
$P(X^{(j)}|c_k) = \frac{1}{\sqrt{2\pi\sigma_{k,j}^2}} \exp\left(-\frac{(X^{(j)}-\mu_{k,j})^2}{2\sigma_{k,j}^2}\right)$
- $\mu_{k,j}$ ：类别 $c_k$ 下第 $j$ 个特征的均值。
- $\sigma_{k,j}$ ：类别 $c_k$ 下第 $j$ 个特征的标准差。

用于离散型数据，例如文本分类。
条件概率计算公式：
$P(X^{(j)}|c_k) = \frac{\text{类别 $c_k$ 中特征 $X^{(j)}$ 的出现次数 + 1}}{\text{类别 $c_k$ 中所有特征的总出现次数 + 特征总数}}$
- 这里通常使用拉普拉斯平滑，避免特征出现次数为 0 导致概率为 0。

假设我们有以下训练数据：

我们需要预测一个新样本 $(\text{晴天}, \text{炎热})$ 的类别 $Y$ 。

计算先验概率：
$P(Y=\text{是}) = \frac{3}{4}, \quad P(Y=\text{否}) = \frac{1}{4}$
计算条件概率：
$P(X_1=\text{晴天}|Y=\text{是}) = \frac{2}{3}, \quad P(X_1=\text{晴天}|Y=\text{否}) = 0$
$P(X_2=\text{炎热}|Y=\text{是}) = \frac{1}{3}, \quad P(X_2=\text{炎热}|Y=\text{否}) = 1$
计算后验概率：
$P(Y=\text{是}|X) \propto P(Y=\text{是}) \cdot P(X_1|Y=\text{是}) \cdot P(X_2|Y=\text{是})$
$P(Y=\text{是}|X) \propto \frac{3}{4} \cdot \frac{2}{3} \cdot \frac{1}{3} = \frac{2}{12}$
$P(Y=\text{否}|X) \propto P(Y=\text{否}) \cdot P(X_1|Y=\text{否}) \cdot P(X_2|Y=\text{否})$
$P(Y=\text{否}|X) \propto \frac{1}{4} \cdot 0 \cdot 1 = 0$
结果：
最大后验概率对应的类别是 $Y=\text{是}$ 。