机器学习理论与实践:贝叶斯方法与聚类分析
1. 贝叶斯定理与朴素贝叶斯算法
贝叶斯定理经过重新排列后可以写成 $P(A|B)=\frac{P(B|A)}{P(B)}\times P(A)$,其中 $\frac{P(B|A)}{P(B)}$ 表示事件 $B$ 对事件 $A$ 发生概率的影响,这是朴素贝叶斯算法的核心。在详细了解朴素贝叶斯算法之前,我们先来认识一下贝叶斯定理中的三个重要概念:
- 先验概率 :指在考虑某些证据之前,事件发生的确定性。例如,在 Facebook 附近功能中,如果不知道朋友的当前位置,朋友去电影院的概率就是先验概率。
- 后验概率 :是指在另一个事件发生的条件下,事件 $A$ 发生的概率。比如在 Facebook 附近功能里,如果知道朋友距离电影院在 1 英里以内(定义为附近),他去电影院的概率会如何变化,这种额外的证据有助于提高对特定事件的确定性。
- 似然和边际似然 :通过对相关示例的双向列联表进行修改,可以得到似然表。例如,在某个示例中,边际似然 $P(Nearby)$ 为 $12/25 = 0.48$,似然 $P (Nearby | Visit Cineplex)$ 为 $10/12 = 0.83$,边际似然不依赖于其他事件。
将这些概念整合起来,就得到了朴素贝叶斯的最终形式:$P(Visit Cineplex|Nearby)=\frac{P(Nearby|Visit Cineplex)\times P(Visit Cineplex)}{P(Nearby)}$。进一步推广,如果有一个由向量 $x=(x_1,\cdots,x_n