5、机器学习分类器：贝叶斯与最近邻方法解析-优快云博客

机器学习分类器：贝叶斯与最近邻方法解析

1. 贝叶斯分类器

1.1 核心原理

贝叶斯分类器通过为每个类别分别计算 $P(x|c_i)P(c_i)$ 的乘积，然后将示例 $x$ 标记为该乘积值最大的类别。这里的主要问题在于如何计算概率 $P(x|c_i)$，大多数情况下，通过假设各个属性相互独立来简化计算，此时 $P(x|c_i) = \prod_{j=1}^{n} P(x_j|c_i)$，其中 $n$ 是属性的数量。

1.2 数值示例

以下是一个包含三个连续属性的训练集示例：
| Example | at1 | at2 | at3 | Class |
| ---- | ---- | ---- | ---- | ---- |
| ex1 | 3.2 | 2.1 | 2.1 | pos |
| ex2 | 5.2 | 6.1 | 7.5 | pos |
| ex3 | 8.5 | 1.3 | 0.5 | pos |
| ex4 | 2.3 | 5.4 | 2.45 | neg |
| ex5 | 6.2 | 3.1 | 4.4 | neg |
| ex6 | 1.3 | 6.0 | 3.35 | neg |

我们要使用贝叶斯公式找出向量 $x = (9, 2.6, 3.3)$ 最可能所属的类别。策略是评估 $p_{pos}(x) \times P(pos)$ 和 $p_{neg}(x) \times P(neg)$。由于 $P(pos) = P(neg)$，所以若 $p_{pos}(x) > p_{neg}(x)$，则将 $x$ 标记为 pos，否则标