朴素贝叶斯理论推导多项式分布利用极大似然估计进行参数估计

最新推荐文章于 2024-06-27 00:38:49 发布

原创

最新推荐文章于 2024-06-27 00:38:49 发布 · 2.9k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法 #数据分析 #朴素贝叶斯算法

本文围绕朴素贝叶斯算法展开，先推导贝叶斯定理，接着定义数据，阐述朴素贝叶斯多项式模型的分类原理与求解方法。通过极大似然估计对模型参数进行估计，并使用拉格朗日乘数法求解。最后采用拉普拉斯平滑避免乘 0 或除 0 情况，得到可用于分类的估计参数。

朴素贝叶斯理论推导多项式分布与伯努利分布利用极大似然估计进行参数估计

（一）：贝叶斯定理

先从条件概率来看

$P(AB)=P(A\vert B)\times P(B)\\P(AB)=P(B\vert A)\times P(A)$
上式中，A,B事件同时发生的概率等于：

B发生时，A发生的概率乘B事件发生的概率。
或者可以说是A发生时，B发生的概率乘A事件发生的概率。

举个例子：
A：喝一杯牛奶，B：吃一块面包
P(A|B)：在吃一块面包的情况下，喝一杯牛奶的概率
此时若求P(AB)则要注意，P(A|B)是有条件存在的，但他的条件（吃一块面包）仍然存在发生的概率。那么P(AB)：既吃面包也喝了牛奶的概率就是先吃一块面包的概率乘上在这个条件下，喝了牛奶的概率。

由上面两个等式可知：
$P(A\vert B)=\frac{P(AB)}{P(B)}=\frac{P(B\vert A)\times P(A)}{P(B)}\\$
现在再引入全概率公式：
$P(B)=\sum_{i=1}^nP(B\vert A_i)\times P(A_i)\\$
则有：
$P(A\vert B)=\frac{P(B\vert A)\times P(A)}{ {\displaystyle\sum_{i=1}^n}p(B\vert A_i)\times P(A_i)}\\$
这就是贝叶斯公式了。

（二）数据的定义

数据集：（i是数据集下标）
$X,Y)=\{\;\;(x_1,y_1)\;,\;(x_2,y_2)...(x_i,y_i)...(x_N,y_N)\;\}\\$
X是一个含有n维度（n个特征）的向量（下标是h）
$X\sqsubseteq\mathbb{R}^n\\X=(\omega_1，\omega_2.....\omega_h....\omega_n)\\$
这里注意，每个维度也存在多种的可能性的，现在我们规定每个维度 $ωh\omega_h$ 有 $S_t$ 种可能性。
意思就是，比如X是一篇文章，w就是其中的某一个单词，而S_t就是这个单词可能出现的情况。w1 表示第一个单词，这个单词可能取值会有 Today、Hi、Hello等可能性。
$\omega_h=1,2...S_t...S_h\\$

Y是该变量X的分类情况，比如一篇文章的分类可能是小说、散文、诗歌等等。（下标用j表示）
$Y=\{c_1,c_2....c_j....c_k\}\\$

（二）朴素贝叶斯——多项式模型：

模型的目标：
首先这个模型解决的问题是分类问题。
朴素+贝叶斯：朴素的意思就是概率独立性，贝叶斯就是运用贝叶斯定理。合在一起就是朴素贝叶斯。
但是同逻辑回归、SVM不同，朴素贝叶斯模型是以概率角度出发去做出分类的。
分类的原理就是找一个概率最大化的思想。其实就是求 $P(Y\vert X)$ 在给我一个X（一篇文章）的情况下，求出他是哪个类型的概率最大。
比如它是散文的概率0.2、是小说的概率0.6、是诗歌的概率0.4。那么我们就说他是小说这个类别的。这就是这个模型的分类原理。

模型的求解：
根据上面说的，我们就是要求出 $P(Y\vert X)$ 这个就行了，但是直接没办法求，我们需要用到贝叶斯公式。现在将贝叶斯公式代入：
$P(Y=c_j\vert X=x_i)=\frac{P\left(X=x\vert Y=c_j\right)\times P\left(Y=c_j\right)}{P(X=x_i)}$
要算的就是给出一篇文章xi，它是cj类型的概率。

这里有几个名词：
先验概率：就是根据已有知识不用做推断和概率假设能得到的概率，比如有10篇文章按照6：4装在AB两个盒子里，A盒子里有三篇小说。先验就是问A中拿出一本小说类型的概率是多少。直接可以知道是3/5
后验概率：就是现在的知识得不到的，比如现在我们要求的，拿出一篇文章是小说问它是从A拿出来概率。
似然性：也就是上面式子分子的那个条件概率。

现在注意一个问题，我们是要找不同 $j$ 值下的 $P(Y=cj∣X=xi)P(Y=c_j\vert X=x_i)$ 中最大的那一个概率，而每一个 $j$ 值下的 $P(Y=cj∣X=xi)P(Y=c_j\vert X=x_i)$ 按照贝叶斯公式展开的分母都是 $P(X=x_i)$ ，所以只用比较他们的分子大小即可。

要求的概率转化为求一个条件概率和一个先验：
$P(Y=cj)P\left(X=x\vert Y=c_j\right)\;\\P\left(Y=c_j\right)$
先验我们是知道的，现在来看看这个条件概率：
先把X按n维展开
$Y=cj)P\left(X=x\vert Y=c_j\right)\;=P（W_1=\omega_1,W_2=\omega_2....W_n=\omega_n\;\vert\;Y=c_j)$
这里我们就有了大问题，w1，w2…wn这有n个维度呢。这里我们会得到很多参数，参数个数为：
$K×∏h=1nShK\times\prod_{h=1}^nS_h\\$
因为每个维度都有很多可能性。这样给计算带来了巨大的麻烦。所以映入朴素的概念。
朴素就是一种假设，假设n维内任意两个维度之间是无关的. $i，j<n)\omega_{i\;}\perp\omega_j\;\left(\;\;i\neq j\;;\;\;\;i，j<n\right)\\$