朴素贝叶斯算法原理与Python实现

最新推荐文章于 2023-06-05 12:38:16 发布

原创

最新推荐文章于 2023-06-05 12:38:16 发布 · 5.5k 阅读

117 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #数据挖掘 #贝叶斯 #朴素贝叶斯

1 算法介绍

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

朴素贝叶斯公式如下：

$P(A_{i}|B) = \frac{P(B|A_{i})P(A_{i})}{\sum_{j}^{}P(B|A_{j})P(A_{j})}$

这个是什么意思呢？该如何用呢？相信大家有一定的概率知识基础的同学，对先验概率及条件概率都比较清楚，在这里简单的说一下这条公式的含义：

1、首先 $P(A_{i}|B)$ 代表的意思就是在B条件发生的情况下，Ai发生的概率

2、 $\sum{}_{j}^{}P(B|A_{j})P(A_{j})$ 这公式代表的意思就是，在所有A类的结果中，B发生的概率之和，也就是B的概率

3、所以在这个公式，表达的意思就是（B条件发生的情况下，Ai发生的概率=Ai与B同时发生的概率占整个B发生的概率的多少）

于是这个公式就可以转化为 $P(A_{i}|B) = \frac{P(B|A_{i})P(A_{i})}{P(B)} = \frac{P(A_{i}B)}{P(B)}$ ，（加上后面这个公式，是为了让我们更好的理解，实际上的使用，一般只用第一个等式的公式）

4、因此，由于P（B）是固定得，所以 $P(A_{i}|B)$ 发生得概率与分子 $P(B|A_{i})P(A_{i})$ 相关，也就是分子越大，概率越高

5、推导过程如下：

最低0.47元/天解锁文章