朴素贝叶斯法----《统计学习方法》第四章_朴素贝叶斯分类为什么是参数化方法-优快云博客

本文详细介绍了朴素贝叶斯分类器的基本原理，包括先验概率、后验概率、条件概率等概念，以及如何利用贝叶斯定理进行分类。同时探讨了参数估计中的极大似然估计和贝叶斯估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习这一章，我们要弄懂几个名词，“朴素贝叶斯”，‘贝叶斯定理’，‘最大后验概率’，‘先验概率’，‘极大似然估计’。
（名词的解释放在文章最后）

朴素贝叶斯法的学习与分类

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X,Y)$ ,具体地，学习以下先验概率分布及条件概率分布。先验概率分布

P (Y = c k), k = 1, 2, . . ., K

$P(Y=c_k), k=1,2,...,K$ 条件概率分布

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k), k = 1, 2, . . ., K

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k), k=1,2,...,K$ 于是学习到联合概率分布P(X,Y)。
条件概率分布有指数级数量的参数，其估计实际是不可行的，朴素贝叶斯法对条件概率分布做了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯也由此得名，具体的，条件独立性假设是

P (X = x | Y = y) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$P(X=x|Y=y)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$ .朴素贝叶斯法实际上学习到生成数据的机制，因此是一种生成模型。条件独立性假设是说在类确定的条件下用于分类的特征都是条件独立的。朴素贝叶斯法分类时，对于给定的输入x，通过学习到的模型计算后验概率分布

P(Y=ck|X=x)P(Y=ck|X=x) $P(Y=c_k|X=x)$ ,将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k )

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}$ ,

P (Y = c k | X = x) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k )

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}$ ,因为分母对所有的

ckck $c_k$ 都是一样的，所以

y = a r g m a x c k P (Y = c k) \prod j P (X (j) = x (j) | Y = c k)

$y={\rm arg}{\rm max}_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)$ .
当损失函数为0-1损失函数时，期望风险最小化准则也就是后验概率最大化准则。

朴素贝叶斯法的参数估计

极大似然估计

先验概率的极大似然估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2,, . . ., K

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},k=1,2,,...,K$ 条件概率的极大似然估计：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算，使分类产生偏差，解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是

P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda}$ ,式中

λ⩾0λ⩾0 $\lambda\geqslant0$ ,等价于在随机变量各个取值的频数上赋予一个正数

λ>0λ>0 $\lambda>0$ .常取

λ=1λ=1 $\lambda=1$ ,这时称为拉普拉斯平滑。
同样，先验概率的贝叶斯估计是

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ

$P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}$

总结：

对最开始的目标，理解了多少？
首先以下几个概率中使用到的X,Y都是可以互换位置的，这只与我们关心哪个数的取值有关。比如我们关心的取值是Y取多少，那么先验概率 $P(Y=c_k)$ 就是根据经验得出的 $Y=c_k$ 的概率。
1.“先验概率”：先验概率是指根据以往经验和分析得到的概率。比如这里的 $P(Y=c_k)$
2.’后验概率’：后验概率是指在得到”结果”的信息后重新修正的概率，比如这里的 $P(Y=c_k|X=x)$ ，是在已知X的信息之后来预测 $Y=c_k$ 。原本我们根据经验得到了 $P(Y=c_k)$ ，但是在已知X之后，我们可以修正这个概率，得到 $P(Y=c_k|X=x)$ ，也就是在先验概率的基础上加入新的信息而得到的后验概率啦。
3.‘条件概率’：条件概率就是在某一个条件的基础上得到另一个变量的概率，比如 $P(X^{(j)}=a_{jl}|Y=c_k)$ ,X,Y反过来同样也叫条件概率。
4.贝叶斯定理：也即是条件独立性假设，朴素贝叶斯估计法也就是依赖于贝叶斯定理构造的。
5.极大似然估计（maximum likelihood estimation，MLE）
在前一章中我们知道，要求得后验概率，首先要知道先验概率和类条件概率，一般来说，这两种概率都需要进行估计，先验概率比较好估计（直接用label除总样本数），而类条件概率就不好估计了，要估计这个条件概率的概率密度函数可能样本量不够，因此我们可以先假定类条件概率具有某种确定的概率分布形式（比如正态分布，均匀分布），再基于训练样本对概率分布的参数进行估计。
设样本集为D， $D={x_1,x_2,...,x_N}$ ，样本分布的参数向量为 $\theta$ ，则似然函数为： $L(\theta)=P(x_1,x_2,...,x_N|\theta)=\prod_{i=1}^N(x_i|\theta)$ ,如果 $\hat\theta$ 是能够使似然函数取值最大的参数，则说明 $\hat\theta$ 就是 $\theta$ 的极大似然估计量。
这种参数化方法虽然能使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否存在潜在的真实数据分布。