数学角度解析朴素贝叶斯算法_数学专业基于朴素贝叶斯的-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_40127118/article/details/106818478

本文深入探讨了朴素贝叶斯算法，一种广泛应用于文本分析和分类任务的有监督学习方法。介绍了算法原理，包括数学预备知识、求极值问题、拉格朗日乘法项及最大似然估计。详细解析了朴素贝叶斯算法的目标函数求解过程，从预备知识到最终优化问题的建立。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

朴素贝叶斯算法仍然是流行的十大挖掘算法之一，也是是文本分析领域最为常用的算法之一，该算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。

1. 预备数学知识

1.1 求极值问题

人工智能中札核心的数学环节是求出一个目标函数最小值或最大值。我们高中时学过的将导数设置成0，然后求出极值点，以及用极值点求出最大值或最小值的方法就是其中之一。
例1：求 $f(x)=x^2-2x+3$ 的最小值。 $f^{'} (x) = 2 x - 2 = 0$ 即可以得到 $x = 1$ ,求得最小值为f(1)=-1.
但是，并不一定所有的函数的极值都可以通过设置导数为0的方式求出，有时候需要利用数值计算相关的技术（如梯度下降法，牛顿法）

1.2 拉格朗日乘法项

有些求极值问题，函数会带有一些条件。如下面的例子：
例2：求 $f (x, y) = x + y$ 的最大值，且 $x^2+y^2=1$ ，那这个时候怎么求出最大值呢？
根据拉格朗日乘法项，将限制条件转变到目标函数中，此时问题就变成： $maximize \,L=x+y+λ(x^2+y^2-1)$
剩下的过程就跟上面类似，设定导数为0，即可以得到以下三个方程：
$f'_x(x,y,λ) =1+2λx=0\tag{1}$ $f'_y(x,y,λ)=1+2λy=0\tag{2}$ $f'_λ(x,y,λ)=x^2+y^2-1=0\tag{3}$
解完后，得到 $λ_1=\frac {\sqrt{2}}{2}$ ， $λ_1=-\frac {\sqrt{2}}{2}$ 。然后再求得 $(x=\frac {\sqrt{2}}{2},y=\frac {\sqrt{2}}{2})$ , $(x=-\frac {\sqrt{2}}{2},y=-\frac {\sqrt{2}}{2})$ 。把两个解带入到原来函数里并做比较即可得到最优解。

1.3 最大似然估计

最大似然估计时机器学习领域最为常见的用来构建目标函数的方法。它的核心思想时根据观测到的结果来预测其中的未知参数。我们举一个投掷硬币的例子。假设有一枚硬币，他是不均匀的，也就是说出现正面和反面的概率是不同的。假设我们设定这枚硬币出现正面的概率为P(H)=θ，这里的H指的是正面，类似的会有反面。假设我们投掷6次之后得到了以下的结果，而且我们假定每次投掷都是相互独立事件： $D=\{H, T, T, H, H, H\}$ 其中D表示所观测到的所有样本。从这个结果其实谁都可以很容易说出θ，也就是出现正面的概率为 $\frac{4}{6}$ ，其实我们在无意识中使用了最大似然估计法。接下来，我们从严谨的角度来定义最大似然下的目标函数。
基于最大似然估计法，我们需要最大化观测到的样本概率，即P(D)。进一步可以写成： $P (D) = P (H T T H H H) = θ * (1 - θ) * (1 - θ) * θ * θ * θ$ 我们的目标是最大化概率值 $L = θ * (1 - θ) * (1 - θ) * θ * θ * θ$ 。那这部分的优化既可以采用上面所提到的方法。 $L'(θ)=4θ^3(1-θ)^2-θ^4*2*(1-θ)=0$ 把这个式子整理完之后即可得到 $θ=\frac {2}{3}$ ,结果跟一开始算出来的一致。

2 朴素贝叶斯

2.1 求目标函数

假设给定一批训练数据 $D={(x^1,y^1),...,(x^N,y^N)}$ ，其中 $x^i$ 指的是第 $i$ 个样本（句子或文章），而且这个样本（句子或文章）包含了 $m_i$ 个单词，所以 $x_i=(x_1^i,x_2^i,...,x_{m_i}^i)$ ，假设x^i的内容为“今天很高兴学习自然语言处理技术”，切分词后为“今天，很，高兴，学习，自然语言处理，技术”，则 $x_1^i$ =“今天”， $x_2^i$ =“很”， $x_3^i$ =“高兴”， $x_4^i$ =“学习”， $x_5^i$ =“自然语言处理”， $x_6^i$ =“技术”， $m_i$ =6。此外， $y^i$ 代表 $x^i$ 的标签。比如在垃圾邮件的应用上，它代表“垃圾邮件”或“正常邮件”。我们用K来代表分类的个数。比如在垃圾邮件应用上K=2。但在这里，我们考虑普遍的情况，很有可能K>2，也称之为是多分类问题。最后，我们再设V为词典库的大小。
朴素贝叶斯是生成模型，它的目标函数是要最大化概率P(D)，也就是说P(x,y)。(判别模型目标函数为P(y|x))我们把前几步的推导先写下： $P(D)=\prod_{i=1}^N P(x^i, y^i)=\prod_{i=1}^N P(x^i|y^i)P(y^i) \tag{4}$ 这里利用贝叶斯公式转化，其中 $P(x^i|y^i)=\frac{P(x^i, y^i)}{P(y^i)}$
$\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad=\prod_{i=1}^n P(x_1^i,x_2^i...x_m^i|y^i)P(y^i) \tag{5}$ 式子(4)到(5)的变化是利用利用事实，样本 $x^i$ 由多个单词组成，每个 $x_j^i$ 看做一个单词。
$\,\quad\quad\quad\quad\quad\quad\quad\quad\quad=\prod_{i=1}^N \prod_{j=1}^{m^i}P(x^i_j|y^i)P(y^i) \tag{6}$ 式子(5)到(6)是利用了朴素贝叶斯的独立性假设，也就是说每个单词是相互独立的。比如给定一个句子“我们今天运功”，在给定一个标签y的情况下，概率可以写成P(“我们今天运动”|y)=P(“我们”|y)∗P(“今天”|y)*P(“运动”|y)。
为了减缓多个乘法项下出现overflow或un
derflow的问题发生，我们需要将公式两边转化为log形式，因为log函数是严格单调递增的函数，不影响我们对结果的比较。加上log后的形式如下： $P(D)=log(\prod_{i=1}^N \prod_{j=1}^{m^i}P(x^i_j|y^i)P(y^i) \tag{7})$ $\,\quad\quad\quad\quad=log(\prod_{i=1}^N \prod_{j=1}^{V}P(w^i_j|y^i)^{n_{ij}}P(y^i) \tag{8})$ 公式（7）到（8）是利用了一些技巧。举例子，假设一个文章内容为“我们天天运动”，按照之前的逻辑这句话的概率为P(“我们天天运动”|y)=P(“我们”|y)P(“天”|y)P(“天”|y)P(“运动”|y)。但另一方面，也可以利用词典库的所有词来代表这个概率。 $P("我们天天运动"|y)=P("啊"|y)^0P("哎"|y)^0...P("天"|y)^2...P("我们"|y)^1...P(“运动”|y)^1...$ ，这两者是等价的，因为没有出现在句子中的词，只不过我们从词典库的角度把所有单词都考虑进来，并数下每个单词在文档i里出现的次数。如果没有出现，相当于0次，0次幂等于1，不影响惩罚项。所以从这个角度我们可以把 $\prod_{j=1}^{m^i}P(x^i_j|y^i)$ 写成 $\prod_{j=1}^{V}P(w^i_j|y^i)^{n_{ij}}$ ,其中 $n_{ij}$ 代表单词j出现在文档i的次数。这里 $w_j$ 代表词典库里的第j个单词。 $\,\quad\quad\quad\quad\quad\quad\quad\quad\quad=\sum_{i=1}^N \sum_{j=1}^V n_{ij} logP(w_j|y^i) +\sum_{i=1}^NlogP(y^i) \tag{9}$ 从式子(8)到(9)利用了log的性质。比如 $logx^y=ylogx$ ， $log\prod_{i=1}P(x^i)=\sum_{i=1}logP(x^i)$ ，且 $logP(y^i)$ 没有包含单词j，所以只需要用 $\sum_{i=1}^N$ 累加各类文档的对数概率即可。 $\,\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad=\sum_{k=1}^K\sum_{i:y^i=k}\sum_{j=1}^Vn_{ij}logP(w_j|y^i=k)+\sum_{k=1}^K\sum_{i:y^i=k}logP(y^i=k) \tag{10}$ 将公式(9)的 $\sum_{i=1}^N$ 拆分成 $\sum_{k=1}^K\sum_{i:y^i=k}$ ，这里的 $i:y^i=k$ 代表属于类别k的所有文档。所以这里 $\sum_{i:y^i=k}logP(y^i=k)$ 表示类别k在所有类别中的对数概率， $\sum_{i:y^i=k}$ 表示属于类别k的每个文档逐个加和。 $\,\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad=\sum_{k=1}^K\sum_{i:y^i=k}\sum_{j=1}^Vn_{ij}logΘ_{kj}+\sum_{k=1}^k\sum_{i:y^i=k}logπ_{k} \tag{11}$ 用 $Θ_{kj}$ 代替 $P(w_{j}|y^i=k)$ ，用 $π_{k}$ 代替 $P(y^i=k)$ 。 $\sum_{k=1}^K\sum_{i:y^i=k}\sum_{j=1}^Vn_{ij}logΘ_{kj}+\sum_{k=1}^K n_{k}logπ_{k} \tag{12}$ $n_{k}$ 表示属于类别k的文件个数，因为 $\sum_{i:y^i=k}$ 表示属于类别k的每个文档逐个加和，所有可表示成属于类别k的文档总数，即 $\sum_{i:y^i=k}π_{k}=n_{k}π_{k}$ 。另外，有两个约束条件需要满足，分别是： $\sum_{u=1}^Kπ_{u}=1 \tag{13}$ $\sum_{v=1}^VΘ_{kv}=1,for\quad k=1,2,...,K \tag{14}$ 条件(13)表示所有的类别的概率加在一起等于1，比如P(垃圾)+P(正常)=1。条件(14)表示的是对于任意一个分类k，出现在词典里的所有单词的总概率为1。
所以，这是个有约束条件的优化问题。把约束条件和目标函数写在一起即可以得到： $\quad L=\sum_{k=1}^K\sum_{i:y^i=k}\sum_{j=1}^Vn_{ij}logΘ_{kj}+\sum_{k=1}^K n_{k}logπ_{k}$ $s.t.\sum_{u=1}^Kπ_{u}=1 \tag{15}$ $\sum_{v=1}^VΘ_{kv}=1,for\quad k=1,2,...,K \tag{16}$ 利用拉格朗日乘法项，我们可以把目标函数写成： $\, L=\sum_{k=1}^K\sum_{i:y^i=k}\sum_{j=1}^Vn_{ij}logΘ_{kj}+\sum_{k=1}^K n_{k}logπ_{k}+λ(\sum_{u=1}^Kπ_{u}-1)+\sum_{k=1}^Kλ_k(\sum_{v=1}^VΘ_{kv}-1) \tag{17}$ $λ$ 为拉格朗日乘数，是一个实数，而 $\sum_{k=1}^Kλ_k(\sum_{v=1}^VΘ_{kv}-1)$ 表示对每个 $\sum_{v=1}^VΘ_{kv}-1$ 分别乘以对应的λ，然后加和。

2.2 找出最优解 $π_{k}$

2.2.1 找出最优解 $π_{k}$

我们需要设置导数为0，进而找出最优解。先求解 $π_{k}$ ，所以只要跟 $π_{k}$ 无关的项都可以不考虑，因为它们导数为0。L对 $π_{k}$ 的导数为： $\frac{∂L}{∂π_{k}} =\frac{∂(n_{k}logπ_{k}+λπ_{k})}{∂π_{k}}=\frac{n_{k}}{π_{k}}+λ=0 \tag{18}$ 解为 $π_{k}=-\frac{1}{λ}n_{k}$ 。这里有个参数λ，但同时我们有一个约束条件是 $\sum_{u=1}^Kπ_{u}=1$ ，把刚才的解带入这个条件中，得： $\sum_{u=1}^K-\frac{1}{λ}n_{u}=1 \tag{19}$ 则可求得 $λ=-\sum_{u=1}^Kn_{u}$ 。把λ再次带入到 $π_{k}=-\frac{1}{λ}n_{k}$ 里，可得： $π_{k}=\frac{n_{k}}{\sum_{u=1}^Kn_{u}} \tag{20}$ 这里面 $n_{k}$ 为k类文档出现的个数，分母为所有文档的个数。

2.2.2 找出最优解 $Θ_{kj}$

同理，我们需要求L对 $Θ_{kj}$ 的导数，得： $\frac{∂L}{∂Θ_{kj}}=\frac{∂[(\sum_{i:y^i=k}logΘ_{kj})+λ_{k}(\sum_{v=1}^VΘ_{kv}-1)]}{∂Θ_{kj}}=\sum_{i:y^i=k}\frac{n_{ij}}{Θ_{kj}}+λ_{k}=0 \tag{21}$ 解为 $Θ_{kj}=-\frac{1}{λ_{k}}\sum_{i:y^i=k}n^{ij}$ 。这里有个参数是 $λ_{k}$ ,但同时我们有个约束条件 $\sum_{v=1}^VΘ_{kv}=1$ ,把 $Θ_{kj}=-\frac{1}{λ_{k}}\sum_{i:y^i=k}n^{ij}$ 带入这个条件公式中，得： $λ_{k}=-\frac{1}{\sum_{v=1}{V}\sum_{i:y^i=k}n_{iv}} \tag{22}$ 把 $λ_{k}$ 带入到上面的解，得： $Θ_{kj}=\frac{\sum_{i:y^i=k}n_{ij}}{\sum_{v=1}^V\sum_{i:y^i=k}n_{iv}} \tag{23}$ 这个式子中分子代表的是在所有类别为k的文档里出现了多少次 $w_{j}$ ，也就是词典库里的 $j$ 个单词。分母代表的是在类别为 $k$ 的所有文档里包含了总共多少个单词。