朴素贝叶斯（naive bayes)

朴素贝叶斯分类详解

最新推荐文章于 2025-09-29 17:08:14 发布

原创最新推荐文章于 2025-09-29 17:08:14 发布 · 871 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

15 篇文章

订阅专栏

本文介绍了朴素贝叶斯分类的基本原理，包括训练过程、分类方法、参数估计（极大似然估计与贝叶斯估计）及如何处理连续属性。此外还讨论了该方法的优点和局限性。

一训练
二分类
三参数估计
四优缺点
参考文献

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入／输出的联合概率分布；然后基于此模型，对给定的输入x,利用贝叶斯定理求出概率最大的输出概率y。1

一.训练

设输入空间 $x\subseteq R^n$ 为n维向量的集合，输出空间为类标记集合 $y=\{c_1,c_2,...,c_K\}$ 。朴素贝叶斯法通过训练数据集学习联合发布概率p(x,y)。具体的，学习先验概率分布及条件概率分布。
先验概率分布:

P (Y = c k), k = 1, 2, \dots, K (1)

$P(Y=c_k), k=1,2,\cdots,K\tag{1}$
条件概率分布：

P (X = x | Y = c i) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c i) (2)

$P(X=x|Y=c_i)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_i)\tag{2}$
朴素贝叶斯法对条件概率分布做了条件独立性的假设：

P (X = x | Y = c i) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c i) ＝ \prod i = 1 n P (X (i) = x (i) | Y = c i) (2)

$\begin{split} P(X=x|Y=c_i) &= P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_i) \\ &＝\prod_{i=1}^{n}P(X^{(i)}=x^{(i)}|Y=c_i) \end{split}\tag{2}$
条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时也会牺牲一定的分类准确率。

二.分类

朴素贝叶斯法分类时，对于给定的输入x,通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ,将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

P (y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) p ( X = x ) (3)

$P(y=c_k|X=x)= \frac{P(X=x|Y=c_k)P(Y=c_k)}{p(X=x)} \tag{3}$
将式(2)代入式(3)有：

P (y = c k | X = x) = \prod n i = 1 P ( X ( i ) = x ( i ) | Y = c k ) P ( Y = c k ) p ( X = x ) (4)

$P(y=c_k|X=x)=\frac{\prod_{i=1}^{n}P(X^{(i)}=x^{(i)}|Y=c_k)P(Y=c_k)}{p(X=x)} \tag{4}$
注意到对于所有的类

ck $c_k$ ,式(4)的分母都是相同的，于是贝叶斯分类器可以表示为

y = a r g max c k \prod i = 1 n P (X (i) = x (i) | Y = c k) P (Y = c k) (5)

$y=arg \max_{c_k} \prod_{i=1}^{n}P(X^{(i)}=x^{(i)}|Y=c_k)P(Y=c_k) \tag{5}$

三.参数估计

1. 极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(i)}=x^{(i)}|Y=c_k)$ 。可以应用极大似然估计法估计相应的概率。
先验概率 $P(Y=c_k)$ 的极大似然估计是

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N (6)

$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N} \tag{6}$
上式的含义是类标记为

ck $c_k$ 的样本数量占总样本数量的比例。

设第j个特征 $x^{(j)}$ 可能的取值集合为 $\{a_{j1},a_{j2},\cdots,a_{js_{j}}\}$ ，条件概率 $P(x^{(j)}=a_{j1}|Y=c_k)$ 的极大似然估计为

P (x (j) = a j 1 | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j 1 , y i = c k ) \sum N i = 1 I ( y i = c k ) (7)

$P(x^{(j)}=a_{j1}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x^{(j)}_i=a_{j1},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)} \tag{7}$

2. 贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。
条件概率的贝叶斯估计是

p λ (X (j) = a j 1 | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j 1 , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) ＋ s j λ (8)

$p_\lambda(X^{(j)}=a_{j1}|Y=c_k)= \frac {\sum_{i=1}^{N}I(x^{(j)}_i=a_{j1},y_i=c_k) + \lambda} {\sum_{i=1}^{N}I(y_i=c_k)＋s_j \lambda } \tag{8}$
式中

λ≥0 $\lambda \geq 0$ 。当

λ=0 $\lambda = 0$ 就是极大似然估计。常取

λ=1 $\lambda=1$ ，这时称为拉普拉斯平滑。

先验概率的贝叶斯估计是

p λ (Y = c k) = \sum N i = 1 ( y i = c k ) + λ N + k λ (9)

$p_\lambda(Y=c_k)=\frac {\sum_{i=1}^N(y_i=c_k)+ \lambda} {N+k \lambda} \tag{9}$

3.属性为连续值

当属性为连续值时，无法直接通过统计得到属性的条件概率。可以假设每个属性都服从高斯分布，分别计算出每一个类别每个属性的平均值和标准差。

μ k i = 1 M \sum m = 1 M x (i) m I (y m = c k) δ 2 k i = 1 M \sum m = 1 M (x (i) m - μ k i) 2 I (y m = c k) p (x (i) = a | y = c k) = 1 2 π - - \sqrt δ e - ( a - μ k i ) 2 2 δ 2 k i

$\mu_{ki} = \frac1M \sum_{m=1}^M x^{(i)}_mI(y_m=c_k) \\ \delta^2_{ki} =\frac1M \sum_{m=1}^M (x_m^{(i)} - \mu_{ki})^2 I(y_m =c_k) \\ p(x^{(i)}=a|y=c_k) = \frac{1}{\sqrt{2 \pi} \delta} e^{- \frac{(a -\mu_{ki})^2}{2 \delta_{ki}^2}}$