机器学习理论——朴素贝叶斯

最新推荐文章于 2024-11-25 12:08:31 发布

Rookie_zhangshilin

最新推荐文章于 2024-11-25 12:08:31 发布

阅读量253

点赞数

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/Rookie_zhangshilin/article/details/100662782

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

大部分分类算法都是判别方法，即直接学习出特征输出Y和特征X之间的关系，要么是决策函数 $Y = f (x)$ ，要么是条件概率分布 $P (Y ∣ X) = P (Y, X) / P (X)$ ；而朴素贝叶斯算法是生成方法，即直接找出特征输出Y和特征X之间的联合概率分布 $P (Y, X)$ ，然后用 $P (Y ∣ X) = P (Y, X) / P (X)$ 得出。

（1）朴素贝叶斯算法的统计学知识

朴素贝叶斯的思想：先验概率+数据统计分布=后验概率；但先验概率往往是大胆假设的。尽管如此，朴素贝叶斯理论在文本分类、垃圾邮件分类也有很大的应用。

条件独立公式： $P (X, Y) = P (X) P (Y)$
条件概率公式： $P (Y ∣ X) = P (X, Y) / P (Y)$
全概率公式： $P(X)=\displaystyle\sum_{i=1}^{K}P(X,Y=Y_k)=\displaystyle\sum_{i=1}^{K}P(X|Y=Y_k)P(Y_k)$ ，其中 $\displaystyle\sum_{i=1}^{K}P(Y_k)=1$
朴素贝叶斯公式： $P(Y_k|X)=\frac{P(Y_k,X)}{P(X)}=\frac{P(X|Y_k)P(Y_k)}{\displaystyle\sum_{i=1}^{K}P(X|Y=Y_k)P(Y_k)}$

（2）朴素贝叶斯算法模型

算法输入：m个样本，每个样本有n个特征，结果为 $y_m$ 。即 $(x^{(1)}_1,x^{(1)}_2,...,x^{(2)}_n,y_1),(x^{(2)}_1,x^{(2)}_2,...,x^{(2)}_n,y_2)......(x^{(m)}_1,x^{(m)}_2,...,x^{(m)}_n,y_m)$ 。特征输出是K个类别，定义为 $C_1,C_2,...,C_k$
算法输出：测试集 $X^{(test)}$ 的分类
算法模型：

通过训练集知， $P(Y=C_k)(k=1,2,...,K)$ 和条件概率分布 $P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)$
利用（1）中公式， $P(X,Y=C_k)=P(Y=C_k)P(X=x|Y=C_k)=P(Y=C_k)P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)$ ，其中 $P(Y=C_k)为类别C_k在样本集中出现的频率$
这里大胆假设 $x$ 的 $n$ 个特征是相互独立的（如果已经能判断出 $x$ 的 $n$ 个特征是不独立的就不要用该算法），此时 $P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)=P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k)$ 。其实在数据量大的情况下， $x$ 的特征之间必定会有一定的弱关联性，这里其实是牺牲了一部分模型的准确性，简化了模型条件计算的分布难度。
对于预测集中的新样本 $(x^{(test)}_1,x^{(test)}_2,...,x^{(test)}_n)$ ，只用计算所有k个类别的条件概率 $P(Y=C_k|X=X^{(test)})$ ，然后找出最大的条件概率对应的类别即可

（3）朴素贝叶斯算法的推断过程

预测类别 $C_{result}$ 是 $P(Y=C_k|X=X^{(test)})$ 最大化的类别，即 $C_{result}=\underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)})=\underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)/P(X=X^{(test)})$
对于所有类别来说，上式的分母都是一样的，所以可以简化为 $C_{result}=\underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)$
再利用朴素贝叶斯的独立性假设， $C_{result}=\underbrace{argmax}_{C_k}P(Y=C_k)\displaystyle\prod_{j=1}^{k}P(X_j=X^{(test)}_j|Y=C_k)$

（4）朴素贝叶斯算法的参数估计

$P(Y=C_k)$ 为样本 $C_k$ 出现的频率
对于 $P(X_j=X^{(test)}_j|Y=C_k)$ ，其中 $j = 1, 2, . . ., k$ ，要针对 $X_j$ 的分布情况进行讨论：

$X_j$ 为离散值时，通常假设 $X_j$ 满足多项式分布，这样 $P(X_j=X^{(test)}_j|Y=C_k)$ 为样本类别 $C_k$ 中，特征 $X_j^{(test)}$ 出现的频率，
即 $P(X_j=X^{(test)}_j|Y=C_k)=\frac{m^{test}_{kj}}{m_k}$ ，其中 $m_k$ 是样本类别 $C_k$ 的总特征计数， $m_{kj}$ 是样本类别 $C_k$ 中，第j维特征 $X_j^{(test)}$ 出现的计数。
有一些类别的样本可能没有出现，此时 $P(X_j=X^{(test)}_j|Y=C_k)$ 为0，这会影响后验概率估计，因此引入拉普拉斯平滑，
即 $P(X_j=X^{(test)}_j|Y=C_k)=\frac{m^{test}_{kj}+λ}{m_k+λO_j}$ ，其中λ为超参数，通常取1； $O_j$ 为第j个特征的取值个数
$X_j$ 为非常稀疏的离散值时，通常假设 $X_j$ 满足伯努利分布，即特征 $X_j$ 出现记为1，不出现记为0。即只要 $X_j$ 出现即可，不关注 $X_j$ 的次数。
数学公式表达为：
$P(X_j=X^{(test)}_j|Y=C_k)=P(X_j=1|Y=C_k)X^{(test)}_j+(1−P(X_j=1|Y=C_k))(1−X^{(test)}_j)$ ，其中 $X^{(test)}_j$ 取值为0和1。
$X_j$ 为连续值时，通常假设 $X_j$ 满足正态分布，即在样本类别 $C_k$ 中， $X_j$ 的取值满足正态分布。
数学表达式为：
$P(X_j=X^{(test)}_j|Y=C_k)=\frac{1}{\sqrt{2πσ_k^2}}\exp(-\frac{(X^{(test)}_j-μ_k)^2}{2σ_k^2})$ ，其中 $μ_k$ 和 $σ_k^2$ 方别是正态分布的期望和方差，即 $μ_k$ 是在样本类别 $C_k$ 中，所有 $X_j$ 的均值； $σ_k^2$ 是在样本类别 $C_k$ 中，所有 $X_j$ 的方差。

（5）朴素贝叶斯算法的过程

算法输入：训练集m个样本，每个样本n维特征，特征输出为 $y_m$ ，即 $(x^{(1)}_1,x^{(1)}_2,...,x^{(2)}_n,y_1),(x^{(2)}_1,x^{(2)}_2,...,x^{(2)}_n,y_2)......(x^{(m)}_1,x^{(m)}_2,...,x^{(m)}_n,y_m)$ ；
其中k个特征输出类别，分别是 $C_1,C_2,...,C_K$ ，每个输出类别有 $m_1,m_2,...,m_K$ 个样本；如果是离散特征，则特征 $X_j$ 各个类别取值为 $m_{kjl}$ ,其中 $l$ 取值是 $1,2，...，S_j$ ， $S_j$ 是特征 $j$ 不同的取值数
算法输出：测试集中实例 $X^{(test)}$ 的分类结果
算法过程：

若没有Y的先验概率，计算Y的K个先验概率为： $P(Y=C_k)=\frac{m_{k}+λ}{m+λS_j}$ ；若有则直接输入Y的先验概率
分别计算第 $k$ 个类别的第 $j$ 维特征的第 $l$ 个取值条件概率： $P(X_j=m_{jl}|Y=C_k)$
(1)如果 $X_j$ 是离散值： $P(X_j=m_{jl}|Y=C_k)=\frac{m_{kjl}+λ}{m_{kjl}+λS_j}$ ， $λ \geq 1$
(2)如果 $X_j$ 是稀疏的离散值： $P(X_j=m_{jl}|Y=C_k)=P(j|Y=C_k)x_{jl}+(1-P(j|Y=C_k))(1-x_{jl})$ ， $l$ 为0或者1
(3)如果 $X_j$ 是连续值，不需要计算每个 $l$ 的取值概率： $P(X_j=m_{j}|Y=C_k)=\frac{1}{\sqrt{2πσ_k^2}}\exp(-\frac{(X^{(test)}_j-μ_k)^2}{2σ_k^2})$ ，其中 $μ_k和σ_k^2$ 分别是样本类别 $C_k$ 中，所有 $X_j$ 的均值和方差
对于实例 $X^{(test)}$ ，分别计算： $P(Y=C_k)\displaystyle\prod_{j=1}^{n}P(X_j=x_j^{(test)}|Y=C_k)$
确定实例 $X^{(test)}$ 的分类 $C_{result}$ ： $C_{result}=\underbrace{argmax}_{C_k}P(Y=C_k)\displaystyle\prod_{j=1}^{n}P(X_j=x_j^{(test)}|Y=C_k)$