[机器学习] -[传统分类问题] - 朴素贝叶斯分类 + 逻辑回归分类_逻辑回归分类 vs 朴素贝叶斯分类-优快云博客

本文链接：https://blog.youkuaiyun.com/upr_rom/article/details/125906514

本文详细介绍了朴素贝叶斯分类的基本原理，包括贝叶斯定理、特征条件独立假设以及最大似然估计。讨论了离散型和连续型的最大似然估计，并解释了如何在朴素贝叶斯模型中应用这些估计方法。此外，还涵盖了贝叶斯估计以及逻辑回归在分类问题中的应用，展示了如何通过调整参数估计来优化模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

朴素贝叶斯分类
Generative model for classification
逻辑回归 logistic regression

朴素贝叶斯分类

朴素贝叶斯算法的核心是学习输入 $X$ 和输出类 $Y$ 的联合概率分布 $P (X, Y)$ .
学习的方式是：学习先验概率和条件概率，从而得到后验概率。

基础知识

朴素贝叶斯基于贝叶斯原理和特征条件独立假设。

贝叶斯原理

$P (X, Y) = P (Y) P (X ∣ Y)$
对于两个事件来讲，同时发生两个事件的概率等于发生事件Y的情况下发生X的可能性。
如果X，Y是独立的，那么 $P (X ∣ Y) = P (X)$ 。
但是，很多特征实际上是有联系的， $\neq P(X)$ 。

特征条件独立假设

“特征”+“条件独立”+“假设”。
这个性质是指：对于样本的特征 $X=\{{x^{(1)}},x^{(2)},\dots,x^{(n)}\}$ 来说，特征与特征之间在发生 $Y$ 的条件下是独立的。

对于输入 $\in R^n$ ，输出是 $Y=\{ c_1,c_2,\dots, c_k\}$ ,
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)},\dots,X^{(n)}=x^{(n)}|Y=c_k)$
这种普遍情况下，条件概率分布 $P(X=x|Y=c_k)$ 有指数级数量的参数。如果 $x^{(j)}$ 有 $S_j$ 个可取的值，Y的可取值是K，那么参数的数量为： $K\prod_{j=1}^n S_j$ 。这种估计参数过多，是不可取的。以下的特征条件独立假设，限制比较强，但是能够极大的减少参数数量。

如果满足特征条件独立，则可以实现:
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}|Y=c_k) P(X^{(2)}=x^{(2)}|Y=c_k)\dots P(X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$
虽然实际上，不同特征之间在满足 $c_k$ 的情况下有可能存在联系，但是这样子的假设在损失一定准确性的情况下简化了模型。
在这种情况下，条件概率分布的参数数量是 $\sum_{j=1}^n S_j$

PS: 特征条件独立和独立同分布区别
独立同分布是指 不同样本点 $(x_1,c_1) \dots (x_2,c_1)$ 之间的采集是没有依赖关系，同时满足一个概率分布。没有依赖关系是指样本点的产生是独立的，没有时序关系。同一个概率分布是指样本点不是多个分布产生的，而是一个分布产生的。

特征条件独立是指样本中的特征。

基本方法

对于我们想要知道的样本点 $x$ ，对于不同的类 $\{ c_1,c_2,\dots,c_k\}$ ，我们总可以生成对应的概率 $P(Y=c_j|X=x)$ ，表示我们有样本点 $x$ ，样本点属于 $c_j$ 类的概率。

根据贝叶斯定理，我们知道:
$P (X, Y) = P (X) P (Y ∣ X) = P (Y) P (X ∣ Y)$
$P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}$
因此，
$P(Y=c_j|X=x)=\frac{P(Y=c_j) P(X=x|Y=c_j)}{\sum_{i=1}^k P(Y=c_i)P(X=x|Y=c_i)}=\frac{P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j) }{ \sum_{i=1}^k P(Y=c_i)\prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_i) }$

最后，我们选择 $c_j$ 中概率最大的类作为 $x$ 的类。
$y=f(x)=arg \ max_{c_k} \ P(Y=c_k)$
因为分母对于所有类实际上是一致的，所以，我们实际使用的是：
$\ max_{c_j} \ P(Y=c_j) \prod_{l=1}^n P(X^{(l)}=x^{(l)}|Y=c_j)$

后验概率最大的含义

我们采用 0-1损失函数，对于期望风险求最小
$P_{exp}=E[L(Y,f(X))] =\int P(X,Y) L(Y,f(X)) = \int \sum_{k=1}^K P(c_k|X)P(X)L(c_k,f(X)) = \sum_{k=1}^K E_X[L(c_k,f(X))]P(c_k|X)$
为了让期望风险最小，因为样本之间是独立的，我们只需要逐个对 $X = x$ 取最小：
$f(x)=arg\ min_{y\in Y}\sum_{k=1}^K L(c_k,y) P(c_k|X=x) =arg \ min_{y \in Y}\sum_{k=1}^K P(y \neq c_k|X=x)=arg \ min_{y \in Y} (1 - P(y = c_k|X=x)) = arg\ max_{y \in Y} P(c_k|X=x)$

极大似然估计

我们在朴素贝叶斯方法中需要对 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 进行估计。
更加准确的描述：我们在有n个样本 $\{ (x_1,y_1),\dots, (x_n,y_n) \}$ ，我们需要估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 的概率。估计的方法是最大似然估计。

离散型的最大似然估计

当我们有n个样本 $\{x_1,x_2,\dots, x_n \}$ , $x$ 取值是离散的k种 $\{1,2,\dots,k \}$ ，我们知道每次采样得到的结果是第 $i$ 个的概率分布是 $p_i$ 。满足 $\sum_{i=1}^k p_i=1$ 。
我们的目标是求出 n个样本（观测值）下， $p_i$ 是多少。
我们假设 $P(X=x_i)=p(x_i) = p_{x_i}$ ， $(X_1,X_2,\dots, X_n)$ 是取自于总体的样本容量为n的样本，那么 $(X_1,X_2, \dots,X_n)$ 的联合概率是 $\prod_{i=1}^n p_{x_i}$ ，这就是样本的似然函数。
$L=\prod_{i=1}^n p_{x_i}$
最大似然估计就是假设： 我们的分布就是使得我们的观测最有可能出现的分布(最有可能出现：最大似然)。
目标： $\ max_{p_1,\dots,p_k} \ L$
限制： $\sum_{i=1}^k p_i=1$

$\prod_{x_i=1}^k p_{x_i}^{m_{x_i}}$ ，其中 $m_{x_i}$ 表示 $x_i$ 这个值出现的次数，满足 $\sum_{i=1}^k m_i=N$ 。
等同于 $\ L=\sum_{i=1}^k m_i log\ p_i$ ，在满足 $\sum_{i=1}^k p_i=1$ 和 $\sum_{i=1}^{k} m_i=N$ 条件下求最大。
经过拉格朗日乘数，最后可以得到 $p_i=\frac{m_i}{N}$ 。
概率实际上就是每个值出现的比例。

连续型的最大似然估计

我们也是假设我们得到了N个样本 ${x_1,x_2,\dots,x_n}$ ， $X$ 取值范围是连续的， $P\{X=x\}=f(x;\theta)$ (概率密度)，满足 $\int_X f(x;\theta)=1$ 。 $\theta$ 是可以改变的，可以实现不同的概率分布。[注意参数空间和分布空间的区别：我们实际上是在参数空间中取值，实现样本在分布空间的概率最大]。
$(X_1,X_2,\dots,X_n)$ 的联合概率分布就是 $L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)$
$\theta = arg \ max_\theta\ L(\theta)$
如果我们假设，我们的分布满足多元高斯分布： $N(\mu,\Sigma)$ ，我们实际上就是在 $\{ \mu,\Sigma \}$ 的参数空间中寻找满足最大似然的分布。
$L=\prod_{i=1}^n \frac{1}{\sqrt{(2 \pi)^k | \Sigma |}}e^{-\frac{1}{2}(x_i-\mu)^T \Sigma^{-1}(x_i-\mu)}$
$min_{\mu,\Sigma} \ log \ L = \sum_{i=1}^n -\frac{1}{2}[(x_i-\mu)^T \Sigma^{-1} (x_i-\mu)+ln|\Sigma|]$
最终可以得到：
$\mu =\frac{\sum_{i=1}^N x_i}{N}$
$\Sigma=\frac{1}{N}\sum_{i=1,j=1}^N(x_i-\mu)^T (x_j-\mu)$

朴素贝叶斯中的最大似然估计

$P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)}{N},k=1,2,\dots,K$
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{ \sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k) }{\sum_{i=1}^N I(y_i=c_k)}$

贝叶斯估计

我们知道，在上述计算中只是采用了离散型的最大似然估计。有一个问题就是，如果说 $\{ x^{(1)},\dots,x^{(n)} \}$ 某一特征维度上需要对一个没有出现过的值进行估计，那么条件概率为0，最终后验概率为0。这不是我们希望的，因此贝叶斯估计解决了这一问题（假设每一个值都在）。
$P_\lambda (X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{ \sum_{i=1}^{N} I(y_i=c_i) +S_j \lambda }$

同样，对于先验概率，也有：
$P_\lambda (Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)+\lambda}{ N+K \lambda }$

Generative model for classification

我们实际上可以限定 $P (X ∣ Y)$ 的分布类型：伯努利分布；多元高斯分布； $\beta$ -二项式分布。

伯努利分布

伯努利分布只仅限于 $X$ 为两个值 ${0,1\}$ 。 $P(X|Y)=\{\theta, 1-\theta \}$ 。
$P(X|C)=\theta^x (1-\theta)^{1-x}$

$p(x_1,x_2,\dots , x_n|Y) )=-N_c log(\theta_c)-(N-N_c)log(1-\theta_c)$
L 对于 $\theta$ 求导，就可以得到结果： $\theta_c=\frac{N_c}{N}$

$\beta$ -二项式分布

有时候我们会设置 $\theta$ 出现的概率: $P(\theta)=\theta^{a-1}(1-\theta)^{b-1}$
$P(\theta|D_c)\sim P(D_c|\theta)P(\theta)\sim \theta^{N_c+a-1}(1-\theta)^{N-N_c+b-1}\sim Beta(N_c+a,N-N_c+b)$
此时，我们结合我们的先验 $P(\theta)$ 和分布的最大概率，得到了样本分布下的 $\theta$ 分布的概率。这样子，就不只将 $\theta$ 设置为一个值，而是多个连续值，形成一个分布。
$P(X=1|D_c)=\int_0^1 P(X=1|\theta)P(\theta|D_c)=\int_0^1 \theta P(\theta|D_c)=E[\theta|D_c]$

多元高斯分布

$P(X|Y)=\frac{1}{ \sqrt{(2\pi)^D |\Sigma| } } e^{-\frac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu)}$
$\mu=\frac{1}{N}\sum_{i=1}^N x_i$
$\Sigma_{i,j}=Cov(X^{(i)},X^{(j)})=E[(X^{(i)}-\mu^{(i)}) (X^{(j)}-\mu^{(j)})]$
其中 $X^{(i)}$ 表示样本的第 $i$ 维的元素。

如果是一个二分类问题，根据贝叶斯定理，可以得到：
$P(Y=c_1|x)=P(Y=c_1)P(X=x|Y=c_1)=\frac{m_1}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_1|} e^{-\frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1}(x-\mu_1) } }$
$P(Y=c_2|x)=P(Y=c_2)P(X=x|Y=c_2)=\frac{m_2}{N}\frac{1}{\sqrt{(2\pi)^D |\Sigma_2|} e^{-\frac{1}{2}(x-\mu_2)^T \Sigma_2^{-1}(x-\mu_2) } }$
设置概率和为1：
$P_1=\frac{1}{1+\frac{m_2 \sqrt{|\Sigma_1|}}{m_1 \sqrt{|\Sigma_2|}}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) ]}}$

我们设置 $P(X|Y=c_1)$ 和 $P(X|Y=c_2)$ 的协方差设置为一个： $\Sigma=\frac{m_1}{N}\Sigma+\frac{m_2}{N}\Sigma$
$P_1=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}[ (x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1) ]}}=\frac{1}{1+\frac{m_2}{m_1}e^{-\frac{1}{2}(2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1))}}$

我们将 $P_1$ 设置为 $\frac{1}{1+e^{-z}}$ （logistic function）
那么:
$z=-\frac{1}{2}[2(\mu_1-\mu_2)^T \Sigma^{-1}x+(\mu_2-\mu_1)^T\Sigma^{-1}(\mu_2-\mu_1)]+ln(\frac{m_2}{m_1})$
可以将其看作： $z = w x + b$
最后可以得到： $P_1=\frac{1}{1+e^{wx+b}}$ 和下文中的逻辑回归结果相似！但是需要注意的是：以上部分是基于贝叶斯原理，有假设 $P(Y=c_1)$ 和 $P(Y=c_2)$ 。但是下文的逻辑回归是判别模型，没有这样的假设。相对来说 $w x + b$ 的范围会更宽一些。因此，两者得到的 ${w,b}一般是不同的。$

逻辑回归 logistic regression

二项逻辑回归

虽然名字叫回归，但实际是一个分类模型，直接得到 $P (Y ∣ X)$ ，随机变量Y取值为0或1。
$P(Y=1|X)=\frac{e^{wx+b}}{1+e^{wx+b}}$
$P(Y=0|X)=\frac{1}{1+e^{wx+b}}$
如果说几率是指事件发生的概率与该事件不发生的概率的比值。那么，如果事件发生的概率是p,那么该事件的几率就是 $\frac{p}{1-p}$ ,对数几率是 $\ \frac{p}{1-p}$ .
那么，对于二项逻辑回归而言， $\frac{P(Y=1|X)}{1-P(Y=1|X)}=wx+b$ 。也就是说，我们得到的参数 $w, b$ 决定了变量 $x$ 是0还是1的比率，决定了相对的概率。 $w x + b$ 越接近正无穷，Y=1的概率就会越接近1；如果越接近负无穷，Y=0的概率就会月接近1。

参数模型估计

我们假设 $P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)$ ，那么似然函数就是:
$L=\sum_{i=1}^N \pi(x_i)^{y_i}[1-\pi(x_i)]^{1-y_i}$
对应的对数似然估计就是：
$\ L =\sum_{i=1}^N [y_i log\ \pi(x_i)+(1-y_i)log (1-\pi(x_i))]=\sum_{i=1}^N [y_i(wx_i+b)-log(1+e^{wx+b})]$
然后就可以使用SGD求解 $w, b$ 。
实际上logistic regression就是perceptron+sigmoid activation function。

多项逻辑回归

输出一共有K种 ${1,2,\dots,K}$ .
那么，对于 $k=1,2,\dots,K-1$ ，对应的 $P(Y=k|x)=\frac{e^{w_k x+b_k}}{1+\sum_{i=1}^{K-1} e^{w_i x+b_i}}$
对于 $k = K$ 来说，对应的 $P(Y=K|x)=\frac{1}{1+\sum_{i=1}^{K-1}e^{w_i x +b_i}}$