1、review
本文讲解如何在分类器中实现贝叶斯算法。朴素贝叶斯分类器是一个监督学习算法,经常用在分类任务上(比如文本分类),也是现在一系列生成学习算法的一部分,因为它试图对给定类别的输入分布进行建模,即建模条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)。它和logistics regression(分类算法)等判别式分类器不同,因为它不学习哪些特征对于判断类别是最重要的。
2、a brief review of bayesian statistics
因为朴素贝叶斯是一个基于贝叶斯统计理论的概率分类器,所以这部分对贝叶斯统计理论做个解释。
贝叶斯统计理论也叫贝叶斯规则,它允许我们转换条件概率。条件概率表示在其他事件发生的情况下该事件发生的概率,可以用下面的公式表示:
P
(
H
∣
E
)
=
P
(
H
,
E
)
P
(
E
)
=
P
(
E
∣
H
)
⋅
P
(
H
)
P
(
E
)
\begin{equation}\begin{split} P(H|E)=\frac{P(H,E)}{P(E)}=\frac{P(E|H)\cdot P(H)}{P(E)} \end{split}\end{equation}
P(H∣E)=P(E)P(H,E)=P(E)P(E∣H)⋅P(H)
其中,H
表示Hypothesis(假设),E
表示Evidence(证据)。所以条件概率表示的就是在证据发生的情况下(或者说在证据发生的样本空间内),假设成立的概率。也可以说,贝叶斯定理的意义就在于,给定一个先验概率P(H)
,在出现了证据E
的情况下,计算后验概率P(H|E)
。
一文搞懂贝叶斯定理
讲的不错的生成式和判别式模型的区别文章