朴素贝叶斯推导

最新推荐文章于 2025-08-25 11:26:18 发布

原创最新推荐文章于 2025-08-25 11:26:18 发布 · 883 阅读

1 ·

CC 4.0 BY-SA版权

NLP 同时被 2 个专栏收录

11 篇文章

订阅专栏

machineLearning

7 篇文章

订阅专栏

本文深入解析了最大似然估计(MLE)和最大后验概率(MAP)在朴素贝叶斯分类器中的作用，通过数学推导展示了如何利用这两种方法优化模型参数，特别关注了在垃圾邮件分类任务中的应用。

先导说明

我们经常用MLE最大似然来构造模型的目标函数，最大似然的目的是让观测到的数据概率最大，所以最大化的就是训练数据的概率。
而MAP后验是在观测数据之上又加上了先验概率，要让模型符合先验概率。当数据足够多的时候，MAP趋近于MLE。
求极值最容易想到的方法是求导置零。
贝叶斯定理：

也就是联合概率P(A,B)=P(B,A)=P(A|B)*P(B)=P(B|A)*P(A)
朴素贝叶斯是生成模型，建模的就是联合概率
朴素贝叶斯的假设就是各个特征相互独立

朴素贝叶斯推导

以垃圾邮件分类为例： $x_i,y_i$ 表示第i个样本及标签，一个文本又有m个词组成，包括 $x_i^1,x_i^2,,,x_i^m$

目标函数

在这里插入图片描述

第(4)布中间表示这是一个生成模型
联合概率的展开用到贝叶斯定理
从第(5)道第(6)是比较关键的一步，用道朴素贝叶斯的基本假设：各个特征相互独立，所以能得到(6)
然后两边取log:
在这里插入图片描述
（7）-》（8）是将按照第i个文本的单词，写成了对于整个词典中的单词，每一个再第i个文本中出现了几次，两者是等价的 $n_{ij}$ 表示wj在xi中出现的次数。
(9)是将log里的连乘转化为求和
(10)是将(9)按照类别拆开，同属于k类的放到一起，然后再对所有类别求和，在一个类别里，只计算属于这个类别的数据
(11)只是换了变量方便表示， $θkj\theta_{kj}$ 表示wj在类k中出现的概率， $πk\pi_k$ 表示在所有文本中，属于第k类的概率， $n_k$ 即有多少个k类的

这样就得到了目标函数，接下来就是求解极值的问题

求解最大值

上面这个目标函数是有限制条件的，
在这里插入图片描述
(13)表示属于所有类别的概率和为1
（14）表示属于第k类的所有单词出现的概率和为1
为了考虑进去，用拉格朗日惩罚考虑进来，合成一个目标函数，为：

这样开始求导
对 $πk\pi_k$ 求导，无关项不用考虑，求和展开也知道只有一个与具体的k有关
在这里插入图片描述
这里还有一个参数 $λ\lambda$ ，根据限制条件（15），从(19)表示出 $πk\pi_k$ ，求和为1，可以得到：

再带回到(19)中，可以求得 $πk\pi_k$

接下来求 $θkj\theta_{kj}$ ，方法一样：

再用第二个限制条件，同样的方法求 $λk\lambda_k$ ，在这里插入图片描述
代入可得 $θkj\theta_{kj}$