7、分类误差估计方法详解

分类误差估计方法详解

1. 交叉验证与RMS界

在某些情况下,通过相关结果可以得到尾概率 $P(|̂𝜀l_n - 𝜀_n| ≥ 𝜏)$ 的对应界。例如,有 $P (|̂𝜀l_n - 𝜀_n| ≥ 𝜏) ≤ \frac{6k + 1}{n𝜏^2}$ 。当样本量 $n$ 趋于无穷大时,$P(|̂𝜀l_n - 𝜀_n| ≥ 𝜏)$ 趋近于 0,这表明留一法交叉验证对于 kNN 分类是普遍一致的,对于均匀核规则也是如此。

不过,这些均方根(RMS)界在小样本情况下通常用处不大。由于它们是无分布的,属于最坏情况的界,对于小的 $n$ 值往往比较宽松。它们应被视为渐近界,用于刻画大样本量下误差估计器的行为。若忽视这一点,常常会得到无意义的结果。比如,当 $k = 3$ 且 $n = 100$ 时,对应的界只能保证 RMS 小于 0.436,几乎没有实际用途。要确保 RMS 小于 0.1,则需要 $n ≥ 1900$ 。

2. 自助法(Bootstrap)

自助法是一种重采样策略,可以看作是一种平滑的交叉验证方法,能降低方差。它采用了特征 - 标签经验分布 $F^ _{XY}$ 的概念。一个来自 $F^ _{XY}$ 的自助样本 $S^ _n$ 是由从原始样本 $S_n$ 中有放回地进行 $n$ 次等概率抽样得到的。有些样本点会多次出现,而有些则根本不会出现。任何给定样本点不在 $S^ _n$ 中出现的概率为 $(1 - \frac{1}{n})^n \approx e^{-1}$ ,因此,大小为 $n$ 的自助样本平均包含约 $0.632n$ 个原始样本点。

基本的自助法误差估计过程如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值