主要分类策略与实用构建方法
1. 主要分类策略
通常,我们无法确切知晓 $p(1|x)$、$p(1)$ 或 $p(x|1)$,因此需要从示例数据集中确定分类器。主要有两种通用策略:
- 显式概率模型 :利用示例数据集构建概率模型(似然或后验,取决于具体情况)。构建方法多样。
- 直接确定决策边界 :如图所示,即使概率模型不佳,也可能得到良好的分类器。因为决策边界而非概率模型细节决定分类器性能(贝叶斯分类器中概率模型主要用于确定决策边界)。在难以对数据源建模时,此方法极具吸引力。
2. 分类策略示例
2.1 使用马氏距离与正态类条件密度
假设每个类 $k$ 的 $p(x|k)$ 为正态分布。可假设先验已知,或通过统计各类数据项数量来估计先验。利用数据项和常规方法获取各类的均值 $\mu_k$ 和协方差 $\Sigma_k$。由于 $\log a > \log b$ 意味着 $a > b$,可对后验取对数,得到如下形式的分类器:
假设我们有 $N$ 个类,第 $k$ 类包含 $N_k$ 个示例,第 $i$ 个示例记为 $x_{k,i}$。
- 对于每个类 $k$,估计该类条件密度的先验、均值和标准差:
- $p(k) = \frac{N_k}{\sum_{i} N_i}$
- $\mu_k = \frac{1}{N_k} \sum_{i=1}^{N_k} x_{k,i}$
- $\Sigma_k = \frac{1}{N_k - 1} \sum_{i=1}^{N_k} (x_{k,i} - \mu_k
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



