朴素贝叶斯的推导

最新推荐文章于 2025-04-13 17:53:55 发布

两把伞

最新推荐文章于 2025-04-13 17:53:55 发布

阅读量918

点赞数

分类专栏：机器学习系列

本文链接：https://blog.youkuaiyun.com/zuoyouzouzou/article/details/100675818

版权

机器学习系列专栏收录该内容

10 篇文章

订阅专栏

朴素贝叶斯=朴素+贝叶斯原理。

朴素：navie，天真，天真的认为特征独立同分布(但现实是复杂的，一般都不是独立的)

贝叶斯原理： $p(y|x)=\frac{p(x,y)}{p(x)}$

朴素贝叶斯是生成式模型，用于做分类的，它是通过argmax p(y|x)来生成类别。

那么argmax p(y|x)如何来的呢？如何使得后验概率p(y|x)最大化呢？

在0-1损失函数中，后验概率最大化等价于经验风险最小化。所以现在来看0-1损失的期望风险最小化问题。

后验概率最大化与(条件)期望风险最小化

0-1损失函数(0-1损失函数)：

$L(Y,f(X))=\begin{cases} 1,&Y \not=f(X) \\ 0,&Y=f(X) \end{cases}$

那么其期望风险为：

$R_{exp}(f(x))=E[L(Y,f(X))]$

因为这个期望是对联合概率P(X,Y)取得，而我们只是需要条件期望(我们的目的是后验概率最大化)。

那如何获得条件期望风险呢？
条件期望风险可以通过期望风险得到：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ R_{exp}(f(x))=…$

从而就获得了P(Y|X)的条件期望（这个是离散表示，上面是连续函数表示）。

$R_{exp}(f(x))=E\sum_{k=1}^{K}[L(c_k,f(X))]p(c_k|x)$

得到条件期望后，就开始求期望风险最小化：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ f(x)=argmin_{y…$
这样，就得到了期望风险最小化等价于后验概率最大化，从而知道了后验概率最大化的由来。

如何实现后验概率最大化呢？

现在我们知道了，对于朴素贝叶斯而言，要达到分类的目的，就要后验概率最大化。

而如何实现后验概率最大化呢？

我们先来看一下我们已经有的条件：

1 一般情况下我们有训练集样本(X,Y)，根据样本我们可以学习到两个分布一个是先验分布，一个是后验分布：P(Y)和P(X|Y)
2 条件独立同分布及贝叶斯方法

结合我们的目的和已知条件得到：

$argmax_{ck} P(Y|X)=argmax_{ck} \frac{P(X|Y)P(Y)}{P(X)}$

现在求P(Y|X)的求解问题就变味了求解 $\frac{P(X|Y)P(Y)}{P(X)}$ 的问题。

又因为在这个最大化的过程中，P(X)作为一个实例，P(X)是一个常量值，所以仅剩下分子是我们要求的最大化: $argmax_{ck} P(X|Y)P(Y)$

而因为这个贝叶斯朴素的，特征独立同分布，所以：
$argmax_{ck}P(X|Y)P(Y)=argmax_{ck}P(Y)\prod_{j=1}^{N}{P(X^{j}=x^{j}|Y=c_k)}$

现在我们得到了如何根据训练集来求得最大的分类。

不过呢，在P(X|Y)中， $X={X^{(1)},X^{(2)},...,X^{(N)}}$ ，每一个特征取 $X^{(i)}$ 取值有 $a_{si}$ 个， $a_{si}={a_{1i},a_{2i},...,a_{ni}}$ ，从而使得X个特征乘积的结果为
$\prod_{i=1}^{N}{a_si}$ ，而因为需要计算每个类别下的特征乘积，总共有K个类别，那么计算量为K $\prod_{i=1}^{N}{a_si}$