43、主要分类策略与实用构建方法-优快云博客

本文链接：https://blog.youkuaiyun.com/leaf8/article/details/154829825

主要分类策略与实用构建方法

1. 主要分类策略

通常，我们无法确切知晓 $p(1|x)$、$p(1)$ 或 $p(x|1)$，因此需要从示例数据集中确定分类器。主要有两种通用策略：
- 显式概率模型 ：利用示例数据集构建概率模型（似然或后验，取决于具体情况）。构建方法多样。
- 直接确定决策边界 ：如图所示，即使概率模型不佳，也可能得到良好的分类器。因为决策边界而非概率模型细节决定分类器性能（贝叶斯分类器中概率模型主要用于确定决策边界）。在难以对数据源建模时，此方法极具吸引力。

2. 分类策略示例

2.1 使用马氏距离与正态类条件密度

假设每个类 $k$ 的 $p(x|k)$ 为正态分布。可假设先验已知，或通过统计各类数据项数量来估计先验。利用数据项和常规方法获取各类的均值 $\mu_k$ 和协方差 $\Sigma_k$。由于 $\log a > \log b$ 意味着 $a > b$，可对后验取对数，得到如下形式的分类器：
假设我们有 $N$ 个类，第 $k$ 类包含 $N_k$ 个示例，第 $i$ 个示例记为 $x_{k,i}$。
- 对于每个类 $k$，估计该类条件密度的先验、均值和标准差：
- $p(k) = \frac{N_k}{\sum_{i} N_i}$
- $\mu_k = \frac{1}{N_k} \sum_{i=1}^{N_k} x_{k,i}$
- $\Sigma_k = \frac{1}{N_k - 1} \sum_{i=1}^{N_k} (x_{k,i} - \mu_k