分布理论中的误差率分析
在数据分类和判别分析中,误差率的估计是一个关键问题。不同的采样方法和误差估计技术会对误差率的计算产生影响。下面将详细介绍几种常见的误差估计方法及其相关理论。
1. 自助法误差(Bootstrap Error)
自助法误差估计有两种情况:混合采样和单独采样。
1.1 混合采样情况
设 (C = (C_1, \ldots, C_n)) 是长度为 (n) 的多项分布向量。从样本 (S_n) 中生成的自助样本 (S_C^n) 对应于对 (S_n) 中第 (i) 个数据点重复 (C_i) 次。多项分布向量 (C) 服从 (C \sim Multinomial(n, \frac{1}{n}, \ldots, \frac{1}{n})),其概率为:
[P(C) = P(C_1 = c_1, \ldots, C_n = c_n) = \frac{1}{n^n} \frac{n!}{c_1! \cdots c_n!}, \quad c_1 + \cdots + c_n = n]
定义 (\hat{\varepsilon} C^n) 为自助分类器在自助样本之外的数据上的错误率:
[\hat{\varepsilon}_C^n = \frac{1}{n(C)} \sum {i=1}^{n} (I_{W(S_C^n, X_i) \leq 0} I_{Y_i = 0} + I_{W(S_C^n, X_i) > 0} I_{Y_i = 1}) I_{C_i = 0}]
其中 (n(C) = \sum_{i=1}^{n} I_{C_i = 0}) 是 (C) 中零的个数。完全零自助误差估
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



