重采样方法:原理、应用与误差分析
1. 数据分层与Bootstrap方法
在数据分析中,数据点的分层有时是必要的。“分层”指的是为每个类别(层)分别执行k折交叉验证(k - fold CV),以确保训练集和测试集中各层数据点的比例相同。对比分析表明,分层k折交叉验证与常规k折交叉验证相比,具有更低的偏差和方差,但这些结果也依赖于数据和样本大小。
接下来介绍Bootstrap方法,这是一种与之前方法不同的重采样方法,由Efron在20世纪70年代引入,是统计学中最早的计算机密集型方法之一。一般来说,Bootstrap方法不用于生成训练和测试数据,因此不用于误差估计(误差估计需要先估计模型参数,再估计误差),而是用于参数估计。
Bootstrap的工作机制如下:该方法生成B个新数据集(B ∈ N,甚至可以大于n),每个新数据集通过有放回地抽取n个样本生成。这意味着数据点可能在新数据集中多次出现,每个新数据集中唯一数据点的数量可能小于n。
| 数据集 | 数据点示例 |
|---|---|
| Set 1 | 6, n - 1, …, 6 |
| Set 2 | 11, 7, 3, …, 1 |
| … | … |
| Set B - 1 | … |
超级会员免费看
订阅专栏 解锁全文
24万+

被折叠的 条评论
为什么被折叠?



