18、统计学习中的Bootstrap方法及其应用

day7

于 2025-08-28 10:08:15 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：工程中的统计学习文章标签： Bootstrap方法统计学习估计误差

本文链接：https://blog.youkuaiyun.com/day7/article/details/152405537

工程中的统计学习专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

统计学习中的Bootstrap方法及其应用

1. 引言

在统计学习领域，准确估计回归函数和分类函数至关重要。为了实现这一目标，我们常常需要处理估计误差和预测分布的问题。Bootstrap方法作为一种强大的工具，为我们提供了有效的解决方案。它不仅可以用于近似估计误差的分布，还能用于计算预测分布，进而得到置信区间，提高预测的准确性。

2. 估计误差的分布

估计误差 $\sqrt{N}(\hat{m}(x) - m(x))$ 近似服从均值为 0、方差为 $\sigma_x^2$ 的正态分布，其中 $\hat{m}(x)$ 是回归函数 $m(x)$ 的估计值，$N$ 是样本数量。然而，对于复杂函数和样本量不是很大的情况，使用Bootstrap方法可以得到更好的近似。

在适当条件下，对于许多距离度量 $d$，如 $d_K$，有：
$d(\sqrt{N}(\hat{m}(x) - m(x)), \sqrt{N}(\hat{m}^b(x) - \tilde{m}(x)))$ 随着 $N$ 的增大收敛于 0。这里，$\hat{m}^b(x)$ 是根据第 $b$ 个伪样本计算得到的回归函数估计值，$\tilde{m}(x)$ 是已知的初始估计值。

因此，$\sqrt{N}(\hat{m}(x) - m(x))$ 的分布可以用 $\sqrt{N}(\hat{m}^b(x) - \tilde{m}(x))$ 的（条件）分布来近似，前提是原始训练集 $X_j, Y_j, j = 1, \cdots, N$ 已知。

Bootstrap近似的优势在于 $\tilde{m}(x)$ 是已知的。通过从原始训练集中抽取 $B$ 个Boots