一文读懂“贝叶斯”_csdn特征空间贝叶斯-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_74099585/article/details/138819594

简介

朴素贝叶斯(naive Bayes)算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。不同于其他分类器，朴素贝叶斯是一种基于概率理论的分类算法；总体来说，朴素贝叶斯原理和实现都比较简单，学习和预测效率较高，是一种经典而常用的分类算法。其中的朴素（naive）是指的对于数据集中的各个特征（feature)都有较强的独立性假设，并未将特征之间的相关性考虑其中。

贝叶斯公式

贝叶斯定理：

$p(c|x)=\frac{p(c)p(x|c)}{p(x)}$

其中， $p(c|x)$ 称为后验（posterior）概率； $p(c)$ 是类先验（prior）概率； $p(x|c)$ 是样本x相对于类标记c的类条件概率（class-conditional proability），或称为似然（likelihood)概率； $p(x)$ 是用于归一化的证据（evidence）因子。对于给定样本x，证据因子 $p(x)$ 与类别标记无关，因此估计后验概率 $p(c|x)$ 的问题就转化为如何基于训练数据D来估计先验概率 $p(c)$ 和似然 $p(x|c)$ 。

先验概率：根据以往经验或经过数据统计得到的概率。例如我们可以通过统计训练数据集来计算得到先验概率 $p(c)$ 。
后验概率：事情已经发生，求这件事情发生的原因是由某个因素引起的可能性的大小。比如 $p(c|x)$ 称为 $c$ 的后验概率，即它是在观察到事件x发生之后计算得到的。

贝叶斯定义之所以有用，是因为我们通常很难直接得到后验概率 $p(c|x)$ ,但是先验概率 $p(c)$ 和似然概率 $p(x|c)$ 反而比较好得到，通过这两者我们可以计算得到后验概率。实际上，机器学习所要实现的就是基于有限的训练样本集合尽可能准确地估计出后验概率 $p(c|x)$ 。一般来说有两种策略：给定 $x$ ，直接建模 $p(c|x)$ 来预测 $c$ ，这样得到的是“判别式模型”（discriminative models），常见的包括决策树模型、神经网络、支持向量机、逻辑回归模型等等；也可以对联合概率分布 $p(x,c)$ 建模，然后再由此获取 $p(c|x)$ ，这样得到就是“生成式模型”（generative models），比如本文介绍的朴素贝叶斯模型。

极大似然估计

贝叶斯公式确定了，现在的问题变成了如何从训练样本集合中去估计先验概率 $p(c)$ 和似然 $p(x|c)$ 。类先验概率 $p(x)$ 表达了样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时， $p(c)$ 可通过各类样本出现的频率来进行估计。但是对于类条件概率 $p(x|c)$ 来说，由于它涉及到了关于 $x$ 所有属性的联合概率，实际上是无法进行估计的。比如每个样本多具有 $d$ 个属性，每个属性都是二值的，那么样本空间将有 $2^{d}$ 种可能的取值，在实际应用中，样本一般都具有多个特征，并且每个特征的取值也各不相同，这样组合下来的取值会远训练样本的数量。这会使得条件概率分布 $p(x|c)$ 具有指数级数量的参数，造成组合爆炸的问题。
朴素贝叶斯对条件概率分布做了条件独立性的假设，也正是因为这一假设，朴素贝叶斯因此得名。具体来说，条件独立性假设是：

$p(x|c)=p(x^{(1)},x^{(2)},...,x^{n}|c)=\prod_{j=1}^{n}p(x^{j}|c)$

朴素贝叶斯实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类别确定的条件下是条件独立的。这一假设使得朴素贝叶斯变得简单，但是特征实际上一般是互相有依赖的，并不完全满足这个假设，因此朴素贝叶斯也牺牲了一定的准确率。
有了上述前提之后，我们现在使用极大似然估计的方法来估计先验概率 $p(c)$ 和似然 $p(x|c)$ .

先验概率 $p(c)$ 的极大似然估计是：

$p(c_{k})=\frac{\sum_{i}^{N}I(y_{i}=c_{k})}{N},k=1,2,3,...,K$