NLP实践四：朴素贝叶斯实现文本分类

最新推荐文章于 2025-05-12 21:18:41 发布

转载最新推荐文章于 2025-05-12 21:18:41 发布 · 1k 阅读

NLP 同时被 2 个专栏收录

16 篇文章

订阅专栏

文本分类

8 篇文章

订阅专栏

本文深入探讨了贝叶斯分类器的理论基础，包括贝叶斯公式、条件独立性和全概率公式。详细讲解了朴素贝叶斯模型的构建过程，如何通过训练集学习先验概率和条件概率，并应用到分类任务中。最后，通过Thucnews分类实例演示了算法的具体实现。

文章目录

参考朴素贝叶斯原理

贝叶斯公式

条件独立公式，如果X和Y相互独立，则有：
$\ P(X,Y) =P(X)P(Y)$
条件概率公式：
$\ P(Y|X) = P(X,Y)/P(X)$
$\ P(X|Y) = P(X,Y)/P(Y)$
全概率公式:
$\ P(X) = \sum\limits_{k}P(X|Y =Y_k)P(Y_k) 其中\sum\limits_{k}P(Y_k)=1$
从上面的公式很容易得出贝叶斯公式：
$\ P(Y_k|X) = \frac{P(X|Y_k)P(Y_k)}{\sum\limits_{k}P(X|Y =Y_k)P(Y_k)}$

贝叶斯模型描述

给定条件

假如我们的分类模型样本是：
$x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$
代表有m个样本，每个样本有n个特征，特征输出有K个类别,定义为 ${C_1,C_2,...,C_K}$

目标

在以上给定条件后，我们希望贝叶斯模型能通过给定样本 $X^{(test)}={(x_1^{(test)}, x_2^{(test)}, ...x_n^{(test)})}$ ，通过后验概率最大化来判断分类，预测出 $P(Y=C_K|X=X^{(test)})$

推理的过程

已知要求 $P(Y=C_K|X=X^{(test)})$ ，根据贝叶斯公式可得：
$P(Y=C_k|X=X^{(test)}) = \frac{P(X=X^{(test)}|Y_k)P(Y=C_k)}{\sum\limits_{k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)}$
$C_{result}$ 是使 $P(Y=C_k|X=X^{(test)})$ 最大化的类别，数学表达式为：
$\begin{aligned} C_{result} & = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)}) \\ & = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) {/}P(X=X^{(test)}) \end{aligned}$
由于对于所有的类别计算 $P(Y=C_k|X=X^{(test)})$ 时，上式的分母是一样的，都是 $P(X=X^{(test)})$ ，因此，我们的预测公式可以简化为：

$C_{result} = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)$

这里给出一个大胆的独立性假设：即X的n个维度之间相互独立
那么有：
$\begin{aligned} P(X|Y=C_k) & = P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) \\ & = P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k) \end{aligned}$

那么我们利用朴素贝叶斯的独立性假设，就可以得到通常意义上的朴素贝叶斯推断公式:

$C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)$

$P(Y=C_k)$ 和 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...,n)$ 怎么学习

我们知道只要求出 $P(Y=C_k)$ 和 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ，我们通过比较就可以得到朴素贝叶斯的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率。
对于 $P(Y=C_k)$ ,比较简单，通过极大似然估计我们很容易得到 $P(Y=C_k)$ 为样本类别 $C_k$ 出现的频率，即样本类别 $C_k$ 出现的次数 $m_k$ 除以样本总数m。
对于 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ,这个取决于我们的先验条件：
a) $X_j$ 是离散的值，那么我们可以假设 $X_j$ 符合多项式分布，这样得到 $P(X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中，特征 $X_j^{(test)}$ 出现的频率。即：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$
其中 $m_k$ 为样本类别 $C_k$ 总的特征计数，而 $m_{kj^{test}}$ 为类别为 $C_k$ 的样本中，第 $j$ 维特征 $X_j^{(test)}$ 出现的计数。

某些时候，可能某些类别在样本中没有出现，这样可能导致 $P(X_j=X_j^{(test)}|Y=C_k)$ 为0，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，即此时有：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda}$

其中 $\lambda$ 为一个大于0的常数，常常取为1。 $O_j$ 为第 $j$ 个特征的取值个数。
b) $X_j$ 是非常稀疏的离散值，即各个特征出现概率很低，这时我们可以假设 $X_j$ 符合伯努利分布，即特征 $X_j$ 出现记为1，不出现记为0。即只要 $X_j$ 出现即可，我们不关注 $X_j$ 的次数。这样得到 $P(X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中， $X_j^{(test)}$ 出现的频率。此时有：

$P(X_j=X_j^{(test)}|Y=C_k) = P(X_j|Y=C_k)X_j^{(test)} + (1 - P(X_j|Y=C_k))(1-X_j^{(test)})$
其中， $X_j^{(test)}$ 取值为0和1。
c) $X_j$ 是连续值，我们通常取 $X_j$ 的先验概率为正态分布，即在样本类别 $C_k$ 中， $X_j$ 的值符合正态分布。这样 $P(X_j=X_j^{(test)}|Y=C_k)$ 的概率分布是：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp{(}-\frac{(X_j^{(test)} - \mu_k)^2}{2\sigma_k^2}{)}$
其中 $\mu_k$ 和 $\sigma_k^2$ 是正态分布的期望和方差，可以通过极大似然估计求得。 $\mu_k$ 为在样本类别 $C_k$ 中，所有 $X_j$ 的平均值。 $\sigma_k^2$ 为在样本类别 $C_k$ 中，所有 $X_j$ 的方差。对于一个连续的样本值，带入正态分布的公式，就可以求出概率分布了。

算法过程

我们假设训练集为m个样本n个维度，如下：
$x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1),(x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2),(x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$
共有K个特征输出类别，分别为 ${C_1,C_2,...,C_K}$ ,每个特征输出类别的样本个数为 ${m_1,m_2,...,m_K}$ ,在第k个类别中，如果是离散特征，则特征 $X_j$ 各个类别取值为 $m_{jl}$ 。其中l取值为 $1,2,...S_j$ ， $S_j$ 为特征j不同的取值数。输出为实例 $X^{(test)}$ 的分类
算法流程如下：

如果没有Y的先验概率，则计算Y的K个先验概率: $\ P(Y=C_k)=(m_k+\lambda)/(m+K\lambda)$ ，否则 $P(Y=C_k)$ 为输入的先验概率。
分别计算第k个类别的第j维特征的第l个个取值条件概率： $P(X_j=x_{jl}|Y=C_k)$
a)如果是离散值:
$P(X_j=x_{jl}|Y=C_k) = \frac{m_{kjl} + \lambda}{m_k + S_j\lambda}$
$\ lambda$ 可以取值为1，或者其他大于0的数字。
b)如果是稀疏二项离散值: $P(X_j=x_{jl}|Y=C_k) =P(j|Y=C_k)x_{jl} + (1 - P(j|Y=C_k)(1-x_{jl})$
此时 $l$ 只有两种取值。
c)如果是连续值不需要计算各个l的取值概率，直接求正态分布的参数:
$P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp(-\frac{(x_j - \mu_k)^2}{2\sigma_k^2})$