[机器学习] 分类(Classification)——贝叶斯分类 (Bayes Classification) 和逻辑回归 (Logistic Regression)

最新推荐文章于 2025-06-02 08:30:00 发布

Gong Chuanyang

最新推荐文章于 2025-06-02 08:30:00 发布

阅读量795

点赞数

文章标签：机器学习逻辑回归朴素贝叶斯算法分类算法

本文链接：https://blog.youkuaiyun.com/qq_27309515/article/details/108564977

版权

Classification

Probabilistic Generative Model

在概率论中，我们学习过贝叶斯公式，他是说当一件事情 $A$ 发生了，这件事可能有 $n$ 个原因 $B_1,\ ...\ ,B_n$ ，那么在 $A$ 发生的条件下，事情是由 $B_i$ 引起的概率记为 $p(B_i|A)$ ，这个概率等于在 $B_i$ 发生的概率乘以 $B_i$ 的条件下 $A$ 发生的概率除以 $A$ 发生的概率。即：
$p(B_i|A)=\frac {p(A|B_i)p(B_i)} {p(A)}$
其中， $A$ 发生的概率又等于各个原因的造成 $A$ 发生的概率的和，即 $\sum_{j=1}^np(A|B_j)p(B_j)$ 。所以贝叶斯公式的公式是：
$p(B_i|A)=\frac {p(A|B_i)p(B_i)} {\sum_{j=1}^np(A|B_j)p(B_j)}$
回到我们的分类任务，假设我们只需将数据分为两类，即 $n = 2$ ，而分类任务就是给了你一组特征值向量 $\boldsymbol x$ ，你需要给出他是属于第一类 $C_1$ 还是第二类 $C_2$ 的，那么按照概率的思想，我们就可以去求这个向量是 $C_1$ 的概率和是 $C_2$ 的概率。哪个概率大我们就认为他是哪类的。也就是去求 $p(C_1|\boldsymbol x)$ 和 $p(C_2|\boldsymbol x)$ ，他两的和是为 1 的，所以只需要求一个 $p(C_1|\boldsymbol x)$ ，若大于 $0.5$ 就分类为 $C_1$ ，否则就分类为 $C_2$ 。根据贝叶斯公式：
$p(C_1|\boldsymbol x) = \frac {p(\boldsymbol x|C_1)p(C_1) } {p(\boldsymbol x|C_1)p(C_1)+p(\boldsymbol x|C_2)p(C_2)}$
所以在这个二分类问题中，我们的目标就是去求解 $p(\boldsymbol x|C_1)、p(C_1)、p(\boldsymbol x|C_2)、p(C_2)$ 这四个概率。这四个参数是用训练集的参数求出的。首先来看怎么求 $p(C_1)、p(C_2)$ ，这两个其实就是 $C_1、C_2$ 在实际中发生的概率，但是我们没法知道全体样本中这两类的概率分别是多少，我们只能根据数据集来估测这两个概率。假设我们的数据集有 $m$ 个样本，其中 $k$ 个是 $C_1$ ，其余 $m - k$ 是 $C_2$ ，那么我们能够得到这个样本集的概率就是：

$\begin{aligned} p &= p(C_1)^kp(C_2)^{m-k} \\ &=p(C_1)^k(1-p(C_1))^{m-k} \end{aligned}$
按照极大似然估计的思想，这件事发生的概率最大时，即 $p$ 最大时， $p(C_1)$ 的值就最可能是全体样本中 $C_1$ 发生的概率。对两边取自然对数再求导：
$\begin{aligned} \frac {\partial\ln {p}} {\partial p(C_1)} &= \frac {\partial[k\ln {p(C_1)} + (m-k)\ln {(1-p(C_1))}]} {\partial p(C_1)} \\ &=\frac k {p(C_1)} - \frac {m-k} {1-p(C_1)} \end{aligned}$
因为对 $p$ 取自然对数不会改变 $p$ 的单调性，所以 $\ln p$ 取最值点时的 $p(C_1)$ 也就是 $p$ 求最值时的点。所以上式等于 0 时为极值点，求解得：
$\begin{aligned} \frac k {p(C_1)} &= \frac {m-k} {1-p(C_1)} \\ k-kp(C_1)&=(m-k)p(C_1) \\ p(C_1) &= \frac k m \end{aligned}$
上面这个是当分类类别只有两个的时候的结果，其实当有多个类别的结果也是一样的，也就是 $p(C_i)$ 的极大似然估计是样本集中，属于 $C_i$ 的样本的个数 $m_i$ 除以样本集的总个数 $m$ ：
$p(C_i) = \frac {m_i} m$
上面对分类结果的分布其实是假设其服从的伯努利分布来计算的。因为类别的结果只可能是给定的几个类，比如记为 $1 、 2 、 . . . 、 n$ 而不可能是其他取值，比如说 $1.5$ 等等，所以这个假设是合理的。至此，我们解决了前面所要计算的 $p(C_1)、p(C_2)$ 的值，接下来我们来解决 $p(\boldsymbol x|C_1)、p(\boldsymbol x|C_2)$ ，以 $p(\boldsymbol x|C_1)$ 为例，这个是说，在类别标签为 $C_1$ 的样本中，他的特征参数的形式为 $\boldsymbol x$ 的概率。基于不同的模型我们计算出的概率的方式和结果是不同的。比如说 $\boldsymbol x$ 的取值也是离散分布的，比如在一个水果类别分类任务中，我们的特征属性可能是水果的颜色、形状，颜色的取值假设只有红色、黄色、绿色、蓝色这四种，形状只有圆形、方形、弯月型这几种。那么用伯努利分布去估测

最低0.47元/天解锁文章