朴素贝叶斯（分类）推导

最新推荐文章于 2024-04-30 17:15:32 发布

lhz泽少

最新推荐文章于 2024-04-30 17:15:32 发布

阅读量377

点赞数

本文链接：https://blog.youkuaiyun.com/li15006474642/article/details/104652158

版权

本文详细介绍了朴素贝叶斯模型的推导过程，从生成模型出发，利用条件独立假设，通过最大似然优化参数，最终得出概率参数π和θ的计算公式，即πk=∑u=1ununk和θij=∑v=1v∑i;y=kniv∑i;y=knij，揭示了朴素贝叶斯分类器中类别占比和词频比率的计算原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

传统的分类器朴素贝叶斯很多人都知道怎么用，但是有没有想过它的原理，它是怎么样被一步一步的推导出来的。今天咱们就推导一下朴素贝叶斯模型。
现在有数据集 $D=\{(x^1,y^1),(x^2,y^2),...,(x^n,y^n)\}$
$x$ 表示的是一个文档的所有单词
$y$ 表示的是一个文档属于的类别。
$n$ 表示的是文档的数量

首先我们知道朴素贝叶斯是一个生成模型因此我们的目标函数可以写成：
$\prod_{i=1}^np(x^i,y^i)= \prod_{i=1}^np(x^i|y^i)\cdot p(y^i)= \prod_{i=1}^np(x^i_1,x^i_2,x^i_3,...,x^i_m|y^i)\cdot p(y^i)$

上面就是一个正常的生成模型的样子，相当于一个框架吧，下面我们加入朴素贝叶斯的核心思想：条件独立假设，所以我们的公式可以写成:

$\prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i)$

下面我们的目标就是最大似然优化参数啦。也就是：

$\prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i)=argmax\log [ \prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i)]$

$\log[ \prod_{i=1}^n \prod_{j=1}^vp(w_j|y^i)^{n_{ij}}\cdot p(y^i)]$

$v$ 表示词库中全部词， $n_{ij}$ 表示的是若是单词 $w_j$ 属于文档 $i$ 为1，不属于为0。
我们这样转换的目的就是原来词是从文章中选择，现在变成从词库中选择。而选择的还是那些词，这样转换只是为了方便计算。

$=argmax\sum_{i=1}^n \sum_{j=1}^vn_{ij}\log p(w_j|y^i)+\log p(y^i)$

下面我们把类别考虑到公式里面。

$=argmax\sum_{k=1}^k\sum_{i;y=k} \sum_{j=1}^vn_{ij}\log p(w_j|y^i=k)+\sum_{k=1}^k\sum_{i;y=k}\log p(y^i=k)$

$\sum_{i;y=k}$ 表示属于k类的所有文档。 $\sum_{k=1}^k\sum_{i;y=k}$ 就表示所有的文档。

这个时候我们令 $p(w_j|y^i=k)$ 为 $\theta _{ki}$ 表示第j个单词属于第k类文档的概率。令 $p(y^i=k)$ 为 $\pi_{k}$ 表示文档属于k的概率（先验）

这时候我们的目标函数为：

$argmax\sum_{k=1}^k\sum_{i;y=k} \sum_{j=1}^vn_{ij}\log p\theta_{kj}+\sum_{k=1}^k\sum_{i;y=k}\log \pi_k$

条件： $\sum_{u=1}^u \pi_u=1$

$\quad \quad \sum_{v=1}^v \theta_{kv}=1\quad k=1,2,3...,K$

根据拉格朗日的乘法项我们可以将目标函数写成：

$L=argmax\sum_{k=1}^k\sum_{i;y=k} \sum_{j=1}^vn_{ij}\log p\theta_{kj}+\sum_{k=1}^kn_k\log \pi_k +\lambda\sum_{u=1}^k \pi_u-1+\sum_{k=1}^K\lambda_k\sum_{v=1}^v \theta_{kv}-1$

所以上面就是朴素贝叶斯模型的目标函数。

这里我们有三个参数 $(\theta,\pi,\lambda)$

下面我们求导寻找极值点，也就是当导数等于零的时候：

$\dfrac{\partial L}{\partial \pi_k}=\dfrac{\partial n_k\log \pi_k+\lambda\sum_{u=1}^k \pi_u-1}{\partial \pi}=\dfrac{n_k}{\pi_k}+\lambda=0\Rightarrow \pi_k=-\dfrac{1}{\lambda}\cdot n_k$

由 $\sum_{u=1}^u \pi_u=1$ 可知： $\sum_{u=1}^u -\dfrac{1}{\lambda}\cdot n_u=1\Rightarrow\lambda=-\sum_{u=1}^u n_u$

因此 $\pi_k=-\dfrac{1}{\lambda}\cdot n_k=\dfrac{n_k}{\sum_{u=1}^u n_u}$

同理计算

$\dfrac{\partial L}{\partial \theta_{kj}}=\dfrac{\partial \sum_{i;y=k}n_{ij} \log p\theta_{kj}+\lambda_k\theta_{kv}-1}{\partial \theta_{kj}}=\dfrac{n_{ij}}{\sum_{i;y=k}\theta_{ij}}+\lambda_k=0\Rightarrow \theta_{ij}=\dfrac{\sum_{i;y=k}n_{ij}}{\lambda_k}$