分类误差估计全解析
1. 误差估计的背景与必要性
在实际的分类问题中,若知晓问题的特征 - 标签分布,理论上就能精确计算分类器的误差。然而,多数情况下我们并不掌握这种分布信息,因此需要借助样本数据来估计分类器的误差。当样本量足够大时,可以将数据划分为训练集和测试集,在训练集上设计分类器,然后在测试集上评估其误差。但如果整体样本量较小,就只能在同一数据上进行训练和测试。
2. 误差估计规则
- 误差估计规则的定义 :给定分类规则 $n$ 和样本数据 $S_n = {(X_1, Y_1), \ldots, (X_n, Y_n)}$,误差估计规则是一个映射 $\varPhi_n : (\varPsi_n, S_n, \xi) \to \hat{\epsilon}_n$,其中 $0 \leq \hat{\epsilon}_n \leq 1$,$\xi$ 表示 $\varPhi_n$ 中不依赖于随机样本数据的内部随机因素。若不存在内部随机因素,该误差估计规则为非随机化的;反之,则为随机化的。
- 误差估计与误差估计器的区别 :当 $n$、$S_n$ 和 $\xi$ 都固定时,$\hat{\epsilon}_n$ 是固定分类器 $\varPsi_n = \varPsi_n(S_n)$ 的误差估计;若仅指定 $n$,$\hat{\epsilon}_n$ 则是误差估计器。误差估计规则是通用程序,而误差估计器与分类规则相关,不同分类规则下其性质和性能可能不同。
- 分类过程的优劣考量 :给定分类过程相对于特定特征 - 标签分布的优劣
超级会员免费看
订阅专栏 解锁全文
1546

被折叠的 条评论
为什么被折叠?



