数据抽样

最新推荐文章于 2024-08-17 22:58:11 发布

转载最新推荐文章于 2024-08-17 22:58:11 发布 · 1.3k 阅读

·

0

·

数据挖掘专栏收录该内容

17 篇文章

订阅专栏

本文介绍了数据抽样的概念及重要性，强调了通过创建训练、验证和测试数据集来评估模型性能的方法。阐述了如何避免过度拟合，并正确评估模型的泛化能力。

数据抽样就是从数据集中抽取具有代表性的样本，样本应该大到不丢失重要的信息，小到能够便于操作。

数据抽样需要创建三个数据子集：

（1）训练数据，用于拟合各模型；

（2）验证数据，用于评估各模型并进行模型选择，避免过度拟合；

（3）测试数据，用于对模型的普适性形成真实的评价。

我们不能根据对训练数据集的拟合效果来进行模型选择。举例来说，如果有100个训练数据点用于拟合因变量y和自变量x之间的关系，使用x的99次多项式能够完美拟合这100个点，但是这个多项式模型不仅拟合了y与x之间系统的关系，也拟合了训练数据集的噪音，我们称这种现象为过度拟合。

因为不同数据的噪音是不同的，所以这样的模型无法推广到新的数据。因此，我们需要使用验证数据集来比较各模型并进行选择。

类似地，因为在这种选择过程中不仅使用了验证数据集中因变量和自变量之间系统的关系，也使用了其中的噪音，所以使用验证数据集无法对被选择模型的效果进行客观评价。

因此，我们需要使用第三个数据集———测试数据集来评价模型。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。