分类误差估计方法详解
1. 数据分割问题与再代入法
在实际应用中,将可用数据分割为训练数据和测试数据往往会面临问题。例如,要将均方根(RMS)界限降低到 0.05,需要 100 个测试点,但包含少于 100 个样本点的数据集很常见。而且,相关界限较为严格。由于缺乏足够的数据使训练集和测试集的样本量都足够大,对于很多实际问题,测试集误差估计实际上不可行。在这种情况下,只能使用相同的数据进行训练和测试。
再代入法是一种仅基于训练数据的最简单、最快的误差估计规则。给定分类规则 $\eta$ 和在样本集 $S_n$ 上设计的分类器 $\hat{\eta} n = \eta(S_n)$,再代入误差估计器为:
$\hat{\epsilon}_n^r = \frac{1}{n} \sum {i=1}^{n} |Y_i - \eta(X_i)|$ (7.23)
从经验特征 - 标签分布的角度看,再代入法也可视为分类误差。经验特征 - 标签分布的概率质量函数为 $p_n(X, Y) = P(X = X_i, Y = Y_i | S_n) = \frac{1}{n}$,$i = 1, \ldots, n$。此时,再代入估计器可表示为:
$\hat{\epsilon} n^r = E {p_n}[|Y - \eta(X)|]$ (7.24)
不过,再代入法通常存在乐观偏差,即 $Bias(\hat{\epsilon}_n^r) < 0$。在大多数情况下,如果偏差较小,可能不会引起太大关注,但对于过拟合的分类规则,尤其是在小样本情况下,偏差会变得难以接受。例如,1 - 最近邻分类规则中,对于所有样本大小、分类规则和
超级会员免费看
订阅专栏 解锁全文
7610

被折叠的 条评论
为什么被折叠?



