来源:elitedatascience
编译:BigQuant
成千上万的数据科学新手会在不知不觉中犯下一个错误,你知道是什么吗?
这个错误可以一手毁掉你的机器学习模型,这并不夸张。
我们现在来讨论应用机器学习中最棘手的障碍之一:过拟合(overfitting)。
在本文中,我们将详细介绍过拟合、如何在模型中识别过拟合,以及如何处理过拟合。
最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容:
- 过拟合的例子
- 信号与噪音
- 拟合优度
- 过拟合和欠拟合
- 如何检查过拟合
- 如何避免过拟合
过拟合的例子
假设我们想根据一个学生的简历预测她是否会获得面试机会。
现在,假设我们从10000份简历的数据集及其结果中训练模型。
接下来,我们在原始数据集上尝试这个模型,它预测结果的准确率达到99%……哇!
但这是个坏消息。
当我们在简历的新(“没见过的”)数据集上运行模型时,我们只能获得50%的准确度…即
我们的模型从训练数据到新数据的泛化能力并不好。
这被称为过拟合,也是机器学习和数据科学中的常见问题。
事实上,过拟合在现实世界中也一直在发生着。看看新闻频道:

过拟合是机器学习中常见的问题,当模型在训练数据上表现极佳,但在新数据上泛化能力差时,就可能发生过拟合。本文详细介绍了过拟合的定义、例子、信号与噪音的概念,以及如何检查和避免过拟合,包括交叉验证、增加数据量、删除无用特征、正则化和集成学习等方法。
最低0.47元/天 解锁文章
720

被折叠的 条评论
为什么被折叠?



