朴素贝叶斯方法阅读笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/MustImproved/article/details/120103277

本文详细介绍了朴素贝叶斯方法，包括参数估计的极大似然和贝叶斯估计，以及如何利用条件独立性假设进行预测。通过对训练数据集的学习，计算先验概率和条件概率，并通过后验概率最大化来决定分类。同时，讨论了贝叶斯估计如何解决概率为零的问题，以及后验概率最大化的期望风险最小化含义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朴素贝叶斯方法

《统计学习方法第二版》李航

输入空间 $X⊆Rn\mathcal{X} \sube \mathcal{R}^{n}$ 为 $n$ 维向量的集合，输出空间为类标记集合 $,cK}\mathcal{Y} = \{c_{1}, \cdots, c_{K}\}$ 。输入为特征向量 $x∈Xx\in\mathcal{X}$ ，输出为类标记 $\in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $X\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $Y\mathcal{Y}$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集 $,(xN,yN)}T=\{(x_{1}, y_{1}), \cdots, (x_{N},y_{N})\}$ 由 $P (X, Y)$ 独立同分布产生。

1.参数估计，学习联合概率分布

朴素贝叶斯方法通过训练数据集学习联合概率分布 $P (X, Y)$ 。学习一下先验概率分布以及条件概率分布:

先验概率分布 $,KP(Y=c_{k}), k=1, 2, \cdots, K$

条件概率分布 $,KP(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)}|Y=c_{k}), k=1, 2, \cdots, K$

于是学习到联合概率分布。

这里先验概率的极大似然估计是 $,KP(Y=c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k})}{N}, k=1, 2, \cdots, K$

条件概率的极大似然估计是 $,KP(X^{(j)}=a_{jl} | Y=c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k}, x_{i}^{(j)}=a_{jl})}{\sum_{i=1}^{N}I(y_{i}=c_{k})}, j=1, 2, \cdots, n; l=1, 2,\cdots, S_{j}; k=1, 2, \cdots, K$

其中 $S_{j}$ 表示第 $j$ 个特征的所有可能取值的个数； $I ()$ 是指示函数，如果为true则=1，否则返回false。

1.2贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这会影响到后验概率的计算即过，使分类产生偏差。解决这个问题的方法是采用贝叶斯估计。具体来说，条件概率的贝叶斯估计是

$,KP(X^{(j)}=a_{jl} | Y=c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k}, x_{i}^{(j)}=a_{jl})+\lambda}{\sum_{i=1}^{N}I(y_{i}=c_{k})+S_{j}\lambda}, j=1, 2, \cdots, n; l=1, 2,\cdots, S_{j}; k=1, 2, \cdots, K$

式中 $λ≥0\lambda\geq 0$ 。如果 $λ=1\lambda = 1$ ，这时称为拉普拉斯平滑。同样，先验概率的贝叶斯估计是

$,KP(Y=c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda}, k=1, 2, \cdots, K$

2.预测标签

朴素贝叶斯方法对条件概率分布做了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯方法也由此得名。具体地，条件独立性假设是

$,X(n)=x(n)∣Y=ck)=∏j=1nP(X(j)=x(j)∣Y=ck)P(X=x|Y=c_{k}) = P(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)}|Y=c_{k}) = \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k})$

条件独立性假设是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时也会牺牲一定的分类准确率。

朴素贝叶斯分类时，对于给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_{k}|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。后验概率根据贝叶斯定理进行：

$P(Y=ck∣X=x)=P(X=x∣Y=ck)P(Y=ck)∑kP(X=x∣Y=ck)P(Y=ck)P(Y=c_{k}|X=x) = \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_{k}P(X=x|Y=c_{k})P(Y=c_{k})}$

代入条件独立性假设：

$,KP(Y=c_{k}|X=x) = \frac{P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}{\sum_{k}P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}, k=1, 2, \cdots, K$

于是朴素贝叶斯分类器可表示为

$y=f(x)=argmax⁡ckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)y=f(x)=arg\max_{c_{k}}\frac{P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}{\sum_{k}P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}$