7、重采样方法:原理、应用与误差分析

重采样方法:原理、应用与误差分析

1. 数据分层与Bootstrap方法

在数据分析中,数据点的分层有时是必要的。“分层”指的是为每个类别(层)分别执行k折交叉验证(k - fold CV),以确保训练集和测试集中各层数据点的比例相同。对比分析表明,分层k折交叉验证与常规k折交叉验证相比,具有更低的偏差和方差,但这些结果也依赖于数据和样本大小。

接下来介绍Bootstrap方法,这是一种与之前方法不同的重采样方法,由Efron在20世纪70年代引入,是统计学中最早的计算机密集型方法之一。一般来说,Bootstrap方法不用于生成训练和测试数据,因此不用于误差估计(误差估计需要先估计模型参数,再估计误差),而是用于参数估计。

Bootstrap的工作机制如下:该方法生成B个新数据集(B ∈ N,甚至可以大于n),每个新数据集通过有放回地抽取n个样本生成。这意味着数据点可能在新数据集中多次出现,每个新数据集中唯一数据点的数量可能小于n。

数据集 数据点示例
Set 1 6, n - 1, …, 6
Set 2 11, 7, 3, …, 1
Set B - 1
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值