朴素贝叶斯算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42024702/article/details/109342597

一、前述

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

二、朴素贝叶斯法介绍

I.模型

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (Y ∣ X)$ 。具体来说，利用训练数据学习 $P (X ∣ Y)$ 和 $P (Y)$ 的估计，得到联合概率分布： $P (X, Y) = P (Y) P (X ∣ Y)$ 其中概率估计方法可以是极大似然估计或贝叶斯估计(加上 $\lambda$ 正则项)。

朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。
$P(Y|X)=\frac{P(X,Y)} {P(X)}=\frac{P(Y)P(X|Y)}{ \sum_{Y}^{} P(Y)P(X|Y)}$
在一个很强的特征条件独立假设下，朴素贝叶斯分类器变成了 $y=f(x)=\arg \max_{c_k}^{}\frac{P(Y=c_k)\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=c_k)} {\sum_{k}^{}P(Y=c_k)\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=c_k)}$ 由于在同一个训练数据集下，上式分母相同，于是上式的朴素贝叶斯分类器变为： $y=f(x)=\arg \max_{c_k}^{}{P(Y=c_k)\prod_{j}^{}P(X^{(j)}=x^{(j)}|Y=c_k)}$

II.策略

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化，假设选择0-1损失函数： $L(Y,f(X))=\left\{\begin{matrix}1,Y \neq f(X) \\ 0,Y=f(X)\end{matrix}\right.$ 于是，期望风险函数为： $R_{exp}(f)=E[L(Y,f(X))]$ ，又由于期望是对联合分布 $P (X, Y)$ 取的，所以有条件期望 $R_{exp}(f)=E_X\sum_{k=1}^{K}[L(c_k,f(X))]P(c_k|X)$ ，为了使期望风险最小化，对 $X = x$ 逐个极小化，由此得到： $\arg\min_{y\in\gamma}^{}\sum_{k=1}^{K}L(c_k,y)P(c_k|X=x)\\ = \arg\min_{y\in\gamma}^{}\sum_{k=1}^{K}P(y\neq c_k|X=x)\\ = \arg\min_{y\in\gamma}^{}\sum_{k=1}^{K}(1-P(y= c_k|X=x))\\ = \arg\max_{y\in\gamma}^{}\sum_{k=1}^{K}P(y= c_k|X=x)$ 于是，期望分线最小化准则就等价于后仰概率最大化准则： $f(x)=\arg\max_{c_k}^{}P(c_k|X=x)$

III.算法

a.极大似然估计
极大似然估计，可以直观理解为基于当前训练数据集对先验概率 $P(Y=c_k)$ 的估计： $P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N},k=1,2,\cdots,K$
以及条件概率 $P(X^{(j)}=a_{jl}|Y=c_k)$ 的估计： $P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$ 其中 $j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K;$ 第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 $\left \{ a_{j1},a_{j2},\cdots,a_{jS_j} \right \}$

b.贝叶斯估计
极大似然估计可能会产生过拟合的问题，由于实际样本集中可能存在某个输入输出概率为0的情况。解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是： $P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda}$
其中， $\lambda\geqslant0$ ，当 $\lambda=1$ 时，称为拉普拉斯平滑；同样，先验概率的贝叶斯估计是： $P_\lambda(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K\lambda}$