误差估计:原理、规则与性能评估
在分类问题中,误差估计是一个至关重要且复杂的话题。其准确性受到分类规则、特征 - 标签分布、维度以及样本大小等多种因素的影响。下面我们将深入探讨误差估计规则和性能评估指标。
误差估计规则
一个分类器和一个指定的错误率共同构成一个模式识别(PR)模型。然而,仅一个分类器本身并不能构成 PR 模型。PR 模型的有效性取决于指定的错误率与真实错误率之间的一致性。但当特征 - 标签分布未知时,真实错误率也未知,模型中指定的错误率只能从数据中估计得出。由于无法直接比较指定错误率和真实错误率,我们需要从分类和误差估计程序的角度来衡量 PR 模型的有效性,这些程序共同构成了一个模式识别规则。
从形式上看,一个模式识别规则 $(\Psi_n, \Xi_n)$ 由分类规则 $\Psi_n$ 和误差估计规则 $\Xi_n : (\Psi_n, S_n, \xi) \mapsto \hat{\varepsilon} n$ 组成,其中 $0 \leq \hat{\varepsilon}_n \leq 1$ 是一个误差估计量。这里,$S_n = {(X_1, Y_1), \ldots, (X_n, Y_n)}$ 是来自联合特征 - 标签分布 $F {XY}$ 的大小为 $n$ 的随机样本,$\xi$ 表示 $\Xi_n$ 的与样本数据无关的内部随机因素。
根据 $\xi$ 的性质,误差估计规则可分为以下两类:
1. 随机误差估计规则 :具有随机内部因素 $\xi$。对于固定的样本数据 $S_n$,误差估计程序 $\Xi_n$ 会产生随机结果。
2. 非随机误
超级会员免费看
订阅专栏 解锁全文
1654

被折叠的 条评论
为什么被折叠?



