数据抽样

本文介绍了数据抽样的概念及重要性,强调了通过创建训练、验证和测试数据集来评估模型性能的方法。阐述了如何避免过度拟合,并正确评估模型的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据抽样就是从数据集中抽取具有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。

数据抽样需要创建三个数据子集:

(1)训练数据,用于拟合各模型;

(2)验证数据,用于评估各模型并进行模型选择,避免过度拟合;

(3)测试数据,用于对模型的普适性形成真实的评价。

我们不能根据对训练数据集的拟合效果来进行模型选择。举例来说,如果有100个训练数据点用于拟合因变量y和自变量x之间的关系,使用x的99次多项式能够完美拟合这100个点,但是这个多项式模型不仅拟合了y与x之间系统的关系,也拟合了训练数据集的噪音,我们称这种现象为过度拟合。

因为不同数据的噪音是不同的,所以这样的模型无法推广到新的数据。因此,我们需要使用验证数据集来比较各模型并进行选择。

类似地,因为在这种选择过程中不仅使用了验证数据集中因变量和自变量之间系统的关系,也使用了其中的噪音,所以使用验证数据集无法对被选择模型的效果进行客观评价。

因此,我们需要使用第三个数据集———测试数据集来评价模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值