分类误差估计方法详解
1. 交叉验证与RMS界
在某些情况下,通过相关结果可以得到尾概率 $P(|̂𝜀l_n - 𝜀_n| ≥ 𝜏)$ 的对应界。例如,有 $P (|̂𝜀l_n - 𝜀_n| ≥ 𝜏) ≤ \frac{6k + 1}{n𝜏^2}$ 。当样本量 $n$ 趋于无穷大时,$P(|̂𝜀l_n - 𝜀_n| ≥ 𝜏)$ 趋近于 0,这表明留一法交叉验证对于 kNN 分类是普遍一致的,对于均匀核规则也是如此。
不过,这些均方根(RMS)界在小样本情况下通常用处不大。由于它们是无分布的,属于最坏情况的界,对于小的 $n$ 值往往比较宽松。它们应被视为渐近界,用于刻画大样本量下误差估计器的行为。若忽视这一点,常常会得到无意义的结果。比如,当 $k = 3$ 且 $n = 100$ 时,对应的界只能保证 RMS 小于 0.436,几乎没有实际用途。要确保 RMS 小于 0.1,则需要 $n ≥ 1900$ 。
2. 自助法(Bootstrap)
自助法是一种重采样策略,可以看作是一种平滑的交叉验证方法,能降低方差。它采用了特征 - 标签经验分布 $F^ _{XY}$ 的概念。一个来自 $F^ _{XY}$ 的自助样本 $S^ _n$ 是由从原始样本 $S_n$ 中有放回地进行 $n$ 次等概率抽样得到的。有些样本点会多次出现,而有些则根本不会出现。任何给定样本点不在 $S^ _n$ 中出现的概率为 $(1 - \frac{1}{n})^n \approx e^{-1}$ ,因此,大小为 $n$ 的自助样本平均包含约 $0.632n$ 个原始样本点。
基本的自助法误差估计过程如
超级会员免费看
订阅专栏 解锁全文
7586

被折叠的 条评论
为什么被折叠?



