朴素贝叶斯法

最新推荐文章于 2025-06-06 22:44:25 发布

PhD的自我修养

最新推荐文章于 2025-06-06 22:44:25 发布

阅读量111

点赞数 1

分类专栏：统计学习文章标签：概率论机器学习算法

本文链接：https://blog.youkuaiyun.com/chenconggan0499/article/details/120854146

版权

统计学习专栏收录该内容

6 篇文章

订阅专栏

朴素贝叶斯法

学习与分类

朴素贝叶斯法旨在通过学习联合概率分布 $P (Y ∣ X)$ 以学习生成数据的机制，属于生成模型。

以分类问题为例，此时输出空间为类标记集合 $\mathcal{Y}=\{c_1,\cdots,c_K\}$ 。若输入特征向量 $\mathbf{x}$ 包括 $n$ 个特征、每个特征 $x^{(j)}$ 可能取 $S_j$ 个值，则需要估计的参数数量为 $K\prod_{j=1}^nS_j$ ，即具有指数级数量的参数。为了降低参数数量，朴素贝叶斯法作了条件独立性假设， $P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),$ 即用于分类的特征在类确定的条件下都是独立的。

朴素贝叶斯法分类时采用后验概率最大的准则， $y=\arg\max_{c_k}P(Y=c_k|X=x)=\arg\max_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k).$ 实际上，上述准则等价于期望风险最小化：选择0-1损失函数，此时期望风险函数为 $R_\mathrm{exp}(f)=\mathbb{E}[L(Y,f(X))],$ 期望取自联合分布 $P (X, Y)$ 。因此，有
$\begin{aligned}R_\mathrm{exp}(f)&=\mathbb{E}_X[\mathbb{E}_Y[L(Y,f(X))|X]] \\ &=\mathbb{E}_X[\sum_{k=1}^KL(c_k,f(X))P(c_k|X)].\end{aligned}$ 为了最小化期望风险，只需对 $X = x$ 逐个极小化，因此得到 $f(x)=\arg\max_{c_k}P(c_k|X=x).$

参数估计

朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。常采用的对概率的估计方式有极大似然估计和贝叶斯估计。

极大似然估计

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},$
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)},$
$j=1,\cdots,n;\ l=1,\cdots,S_j;\ k=1,\cdots,K.$

实际上，极大似然估计用频率估计概率。

贝叶斯估计

在极大似然估计中，可能出现所要估计的概率值为0的情况，这时会影响后验概率的计算结果。因此，贝叶斯估计中引入了拉普拉斯平滑，即，
$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda},$
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda},$
$j=1,\cdots,n;\ l=1,\cdots,S_j;\ k=1,\cdots,K.$
贝叶斯估计中，若取 $\lambda\to\infty$ ，则每类实例等概率出现、类别确定时每个特征取各个值的概率也相同。

学习与分类算法

算法（朴素贝叶斯算法）
输入：训练数据 $\mathcal{T}$ ；实例 $x$ ；
输出：实例 $x$ 的分类。
（1）根据极大似然估计或贝叶斯估计计算相应概率值；
（2）对于给定实例 $x=(x^{(1)},\cdots,x^{(n)})^\mathsf{T}$ ，计算 $P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),k=1,\cdots,K;$
（3）确定 $x$ 的类。