主要分类策略及实用构建方法
1. 主要分类策略
通常,我们无法确切知晓 $p(1|x)$、$p(1)$ 或 $p(x|1)$,需要从示例数据集确定分类器。有两种通用策略:
- 显式概率模型 :利用示例数据集构建概率模型(似然或后验,依情况而定),构建方法多样。
- 直接确定决策边界 :如图 15.5 所示,糟糕的概率模型也能产生好的分类器。因为决策边界而非概率模型细节决定分类器性能(贝叶斯分类器中概率模型主要用于确定决策边界)。所以可忽略概率模型,直接构建好的决策边界,尤其在难以对数据源建模时此方法很有吸引力。
1.1 使用马氏距离和正态类条件密度的示例
假设每个类 $k$ 的 $p(x|k)$ 是正态分布。可假设先验已知,或通过统计各类数据项数量估计先验。利用数据项和常规方法获取各类的均值 $\mu_k$ 和协方差 $\Sigma_k$。由于 $\log a > \log b$ 意味着 $a > b$,可对后验取对数,得到如下形式的分类器:
假设我们有 $N$ 个类,第 $k$ 类包含 $N_k$ 个示例,第 $i$ 个示例记为 $x_{k,i}$。
- 对于每个类 $k$,估计该类条件密度的先验、均值和标准差:
- 先验:$p(k) = \frac{N_k}{\sum_{i} N_i}$
- 均值:$\mu_k = \frac{1}{N_k} \sum_{i=1}^{N_k} x_{k,i}$
- 协方差:$\Sigma_k = \frac{1}{N_k - 1} \sum_{i=1}^{N_k} (x_{
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



