【白板推导系列笔记】线性分类-朴素贝叶斯分类器（Naive Bayes Classifer）

最新推荐文章于 2025-06-12 15:16:44 发布

return bool(1)

最新推荐文章于 2025-06-12 15:16:44 发布

阅读量543

点赞数

分类专栏：白板推导系列笔记文章标签：分类机器学习算法人工智能 python

本文链接：https://blog.youkuaiyun.com/liu20020918zz/article/details/127140114

版权

优快云话题挑战赛第2期
参赛话题：学习笔记

朴素贝叶斯是对数据属性之间的关系进行了假设，即各个属性维度之间独立。

NB中我们假设 $X$ 是离散的，服从多项分布（包括伯努利）。GDA的 $X$ 可以用多维高斯分布表示，但是在NB中我们却不能直接使用多项分布。我们用垃圾邮件分类器来阐述NB的思想。
在这个分类器中我们可以用单词向量作为输入特征，具体的，我们的单词书中如果一共有50000个词，那么一封邮件的x向量可以是
$x=\left[\begin{matrix}1\\0\\0\\\cdot\\\cdot\\1\\\cdot\\\cdot\\0\end{matrix}\right]\begin{matrix}a\\aardvark\\aardwolf\\\cdot\\\cdot\\buy\\\cdot\\\cdot\\zen\end{matrix}$
$x$ 是一个 $50000$ 维的向量，在这封邮件中如果存在字典中的词，那该词所在的位置设置为 $1$ ；否则为 $0$ 。
如果要直接用多项分布对 $p (x ∣ y)$ 建模， $p (x ∣ y)$ 共有 $2^{50000}$ 个不同的值，那么我们至少需要 $2^{50000}−1$ 个参数使参数和为 $1$ ，对如此多的参数进行估计是不现实的，所以我们做一个强假设来简化概率模型。

因为每一维度都有 $0, 1$ 两种可能，因此就有 $2^{50000}$ 种组合

作者：rushshi
链接：高斯判别分析(GDA)和朴素贝叶斯(NB)_rushshi的博客-优快云博客

$\begin{gathered} \left\{(x_{i},y_{i})\right\}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left\{0,1\right\} \end{gathered}$
朴素贝叶斯假设每一个维度都是独立的，则有
$\begin{aligned} p(x_{1},\cdots ,x_{p}|y)&=p(x_{1}|y)p(x_{2}|y,x_{1})\cdots p(x_{p}|y,x_{1},\cdots ,x_{p-1})\\ &根据朴素贝叶斯假设各个维度独立\\ &=p(x_{1}|y)p(x_{2}|y)\cdots p(x_{p}|y)\\ &=\prod\limits_{j=1}^{p}p(x_{j}|y) \end{aligned}$
这里需要先假设
$\begin{aligned} y &\sim B(1,\phi_{y})\\ &\Rightarrow p(y)=\phi^{y}(1-\phi)^{1-y}\\ p(x_{j}=1|y=0)&=\phi_{j|y=0}\\ p(x_{j}=1|y=1)&=\phi_{j|y=1}\\ \phi_{j|y}&=\phi_{j|y=1}^{y}\phi_{j|y=0}^{1-y}\\ p(x_{j}|y)&=\phi_{j|y}^{x_{j}}(1-\phi_{j|y})^{1-x_{j}} \end{aligned}$

最低0.47元/天解锁文章