模式识别中的分类器设计与误差估计
在模式识别领域,分类器的设计和误差估计是两个关键问题。本文将深入探讨分类器的基本概念、基于总体的判别式以及分类规则等内容。
1. 分类器基础
分类问题涉及一个预测向量 $X = (X_1, \ldots, X_d) \in R^d$,也称为特征向量,其中每个 $X_i \in R$ 是一个特征。特征向量 $X$ 代表来自两个总体 $\Pi_0$ 或 $\Pi_1$ 中的一个个体。分类的目标是将 $X$ 正确地分配到其所属的总体。
为了实现这一目标,我们将总体编码为离散标签 $Y \in {0, 1}$。给定特征向量 $X$,分类尝试预测相应的标签 $Y$ 的值。$X$ 和 $Y$ 之间的关系被假设为随机的,即存在一个联合特征 - 标签分布 $F_{XY}$ 来描述这对 $(X, Y)$。
这个特征 - 标签分布完全刻画了分类问题。它决定了先验概率 $c_0 = P(X \in \Pi_0) = P(Y = 0)$ 和 $c_1 = P(X \in \Pi_1) = P(Y = 1)$,以及(如果存在)类条件密度 $p_0(x) = p(x \mid Y = 0)$ 和 $p_1(x) = p(x \mid Y = 1)$。为了避免平凡情况,我们始终假设 $\min{c_0, c_1} \neq 0$。
后验概率定义为 $\eta_0(x) = P(Y = 0 \mid X = x)$ 和 $\eta_1(x) = P(Y = 1 \mid X = x)$,且 $\eta_0(x) = 1 - \eta_1(x)$。如果密度存在,则 $\eta_0(x) = c_0p_0(x) / p(x)$ 和 $\eta
分类器设计与误差估计详解
超级会员免费看
订阅专栏 解锁全文
1204

被折叠的 条评论
为什么被折叠?



