机器学习笔记（五）朴素贝叶斯分类器_机器学习中属性条件独立性假设是什么意思-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_41405111/article/details/79809268

本文深入浅出地介绍了朴素贝叶斯分类器的工作原理，包括属性条件独立性假设及其背后的数学推导，并探讨了拉普拉斯修正如何解决概率估计中的零频问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

零、写在前面

参考资料：

《机器学习》周志华
《机器学习实战》Peter Harrington
斯坦福 CS 229 吴恩达

一、属性条件独立性假设

由上篇文章中介绍的贝叶斯决策论知道，我们想做这样的事：
给出一个样本各个属性xi的值（记为向量大X），求出这个样本属于各个类别c的概率，输出这些概率中最大的那个类别。由贝叶斯定理，这概率（等号左侧）可以这样来求：

P (c | X) = P ( c ) P ( X | c ) P ( X )

$P(c|X) = \frac {P(c)P(X|c)}{P(X)}$ 问题的关键就在于

P(X|c) P ( X | c ) $P(X|c)$ 的获得方法，在极大似然估计中，我们假设它服从某一概率分布，然后按照这个概率分布的轮廓来拟合需要的概率。而今天我们要换一种方法来估算它。

事实上，我们觊觎的这个概率是可以直接展开的：

P (X | c) = P (x 1 | c) P (x 2 | c, x 1) P (x 3 | c, x 1, x 2) . . . . . P (x i | c, x 1, x 2, x 3, . . . . . ., x i - 1)

$P(X|c) = P(x_1|c)\ P(x_2|c,x_1)\ P(x_3|c, x_1, x_2).....P(x_i|c, x_1,x_2,x_3,......,x_{i-1})$ 但是对于这个 所有属性上的联合概率，等号右侧的概率是越来越难以计算的，或者说，要获得等号右侧的所有项，需要很大很大很大的数据集。但其实，形如

P(xi|c) P ( x i | c ) $P(x_i|c)$ 的概率是很容易计算的，它代表着固定类别中，固定属性各个取值的概率。那我们就不妨强行地令：

P (X | c) = P (x 1 | c) P (x 2 | c) P (x 3 | c) . . . . . P (x i | c)

$P(X|c) =P(x_1|c)P(x_2|c)P(x_3|c).....P(x_i|c)$
这样就好算了。

接着，计算好了 $P(X|c)$ ，代入 $P(c|X) = \frac {P(c)P(X|c)}{P(X)}$ （其余两项很容易解决），就大功告成啦。

这就是朴素贝叶斯。

好的我们现在再回过头来细致地讲述一遍。事实上，要完成刚才做的 “不妨强行地令” 这一操作是需要一个假设的，即属性条件独立性假设，也称作贝叶斯假设。这一假设说的就是：

各个属性x之间是没有相互关系的。

公式化地表达就是：

P (x i | c, x 1, x 2, x 3, . . . . . ., x i - 1) = P (x i | c)

$P(x_i|c, x_1,x_2,x_3,......,x_{i-1})=P(x_i|c)$ 很好理解：条件概率中竖线 | 右侧的内容表示 “在……的条件下” ，那么，“在

c,x1,x2,x3,......,xi−1 c , x 1 , x 2 , x 3 , . . . . . . , x i − 1 $c, x_1,x_2,x_3,......,x_{i-1}$ 的条件下” 等价于 “在c的条件下”，也就意味着这些xi之间是 不存在相互影响的关系的。

但是我们要记住，所谓不存在相互影响的关系并不准确，这只是我们为了计算方便而作的一个假设（很强的一个假设），并且这一个方法在实际应用的时候效果还不错。

有了上面的公式，我们就要想办法计算等号右侧的那个概率了。它表示的是，在给定类别c的情形，第i个属性取特定值xi的概率。即（用频率估计概率）：

P (x i | c) = 某 类 样 本 中 ， 第 i 个 属 性 取 值 x i 的 个 数 这 类 样 本 总 个 数

$P(x_i|c)=\frac{某类样本中，第i个属性取值x_i的个数}{这类样本总个数}$

至此我们在公式 $P(c|X) = \frac {P(c)P(X|c)}{P(X)}$ 中还剩下两个需要求的量了。

现在我们说P(c)，它表示的是样本类别为c的概率。很自然地，它可以这样算出来：

P (c) = 某 类 样 本 个 数 总 共 样 本 个 数

$P(c)=\frac{某类样本个数}{总共样本个数}$

其实还剩下一个P(X)，但是我们一会就会发现，其实这个概率并不需要计算。

好的，现在我们回到贝叶斯决策论。我们需要对于给出一个样本各个属性xi的值（记为向量大X），求出这个样本属于各个类别c的概率，输出这些概率中最大的那个类别。综合上面得到的结论，把这句话翻译成公式，则有：

o u t p u t c l a s s = a r g m a x P (c | X) = a r g m a x P ( c ) P ( X | c ) P ( X ) = a r g m a x P ( c ) P ( x 1 | c ) P ( x 2 | c ) P ( x 3 | c ) . . . . . P ( x i | c ) P ( X ) = a r g m a x P (c) P (x 1 | c) P (x 2 | c) P (x 3 | c) . . . . . P (x i | c)

$output class=argmax P(c|X) = argmax \frac {P(c)P(X|c)}{P(X)} \\= argmax \frac {P(c)P(x_1|c)P(x_2|c)P(x_3|c).....P(x_i|c)}{P(X)}\\= argmax P(c)P(x_1|c)P(x_2|c)P(x_3|c).....P(x_i|c)$
对于所有类别来说，P(X)是相同的，所以这一因子在最后一个等号去掉了。

这就是朴素贝叶斯。

将上面的各个式子放到一起：

$P (c | X) = P ( c ) P ( X | c ) P ( X )$ $P(c|X) = \frac {P(c)P(X|c)}{P(X)}$
$其中 P (c) = 某类样本个数总共样本个数$ $其中P(c)=\frac{某类样本个数}{总共样本个数}$
$P (X | c) = P (x 1 | c) P (x 2 | c) P (x 3 | c) . . . . . P (x i | c)$ $P(X|c) =P(x_1|c)P(x_2|c)P(x_3|c).....P(x_i|c)$
$P (x i | c) = 某类样本中，第 i 个属性取值 x i 的个数这类样本总个数$ $P(x_i|c)=\frac{某类样本中，第i个属性取值x_i的个数}{这类样本总个数}$

二、拉普拉斯修正

我们接下来要讨论的是这两个式子的升级版：

P (c) = 某 类 样 本 个 数 总 共 样 本 个 数 P (x i | c) = 某 类 样 本 中 ， 第 i 个 属 性 取 值 x i 的 个 数 这 类 样 本 总 个 数

$P(c)=\frac{某类样本个数}{总共样本个数}\\P(x_i|c)=\frac{某类样本中，第i个属性取值x_i的个数}{这类样本总个数}$
考虑这样的情形，我们手头上的训练集将将够大，但是存在着对于某一个类别， 没有某一个属性取特定值的样本。那如果我们直接用之前的方法计算，我们会发现，在上面第二个式子中，分子为零，计算出的

P(xi|c) P ( x i | c ) $P(x_i|c)$ 也为零。接着回溯到

P(X|c)=P(x1|c)P(x2|c)P(x3|c).....P(xi|c) P ( X | c ) = P ( x 1 | c ) P ( x 2 | c ) P ( x 3 | c ) . . . . . P ( x i | c ) $P(X|c) =P(x_1|c)P(x_2|c)P(x_3|c).....P(x_i|c)$ ，乘数因子有一个是零，那么整个的

P(X|c) P ( X | c ) $P(X|c)$ 也为零。再往前推，