统计学习中的Bootstrap方法及其应用
1. 引言
在统计学习领域,准确估计回归函数和分类函数至关重要。为了实现这一目标,我们常常需要处理估计误差和预测分布的问题。Bootstrap方法作为一种强大的工具,为我们提供了有效的解决方案。它不仅可以用于近似估计误差的分布,还能用于计算预测分布,进而得到置信区间,提高预测的准确性。
2. 估计误差的分布
估计误差 $\sqrt{N}(\hat{m}(x) - m(x))$ 近似服从均值为 0、方差为 $\sigma_x^2$ 的正态分布,其中 $\hat{m}(x)$ 是回归函数 $m(x)$ 的估计值,$N$ 是样本数量。然而,对于复杂函数和样本量不是很大的情况,使用Bootstrap方法可以得到更好的近似。
在适当条件下,对于许多距离度量 $d$,如 $d_K$,有:
$d(\sqrt{N}(\hat{m}(x) - m(x)), \sqrt{N}(\hat{m}^b(x) - \tilde{m}(x)))$ 随着 $N$ 的增大收敛于 0。这里,$\hat{m}^b(x)$ 是根据第 $b$ 个伪样本计算得到的回归函数估计值,$\tilde{m}(x)$ 是已知的初始估计值。
因此,$\sqrt{N}(\hat{m}(x) - m(x))$ 的分布可以用 $\sqrt{N}(\hat{m}^b(x) - \tilde{m}(x))$ 的(条件)分布来近似,前提是原始训练集 $X_j, Y_j, j = 1, \cdots, N$ 已知。
Bootstrap近似的优势在于 $\tilde{m}(x)$ 是已知的。通过从原始训练集中抽取 $B$ 个Boots
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



