模型选择、欠拟合和过拟合

方方方方便面

于 2021-10-22 11:26:30 发布

阅读量161

点赞数

分类专栏： PyTorch深度学习实践机器学习文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44476337/article/details/119866937

版权

PyTorch深度学习实践同时被 2 个专栏收录

9 篇文章

订阅专栏

3 篇文章

订阅专栏

本文详细介绍了过拟合和欠拟合的概念，训练误差与泛化误差的差异，以及如何通过特征选择、正则化等方法对抗过拟合。同时，强调了在模型选择过程中避免过拟合的重要性，提出了使用验证集和K折交叉验证等技术来优化模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

训练误差和泛化误差

训练误差：模型在训练集上计算的误差；
泛化误差：模型在原始样本的分布中抽取无限多的数据样本我们模型误差的期望。
**················································································ **

可调整参数的数量。当可调整参数的数量（有时称为⾃由度）很⼤时，模型往往更容易过拟合。
参数采⽤的值。当权重的取值范围较⼤时，模型可能更容易过拟合。
训练样本的数量。即使你的模型很简单，也很容易过拟合只包含⼀两个样本的数据集。而过拟合⼀个有数百万个样本的数据集则需要⼀个极其灵活的模型。

过拟合和欠拟合

欠拟合：在训练集表现差，在测试集表现同样很差；
过拟合：模型在训练数据上拟合得比在潜在分布中更接近的现象；
对抗过拟合的技术称为正则化

过拟合应该如何处理：
1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如 PCA）
2.正则化。保留所有的特征，但是减少参数的大小（magnitude）

模型选择

在确定超参数之前不应该用测试集，否则有过拟合风险。
也不能只依靠训练集进行模型选择，因为无法估计训练数据的泛化误差。
解决方法：将数据集分为三份：训练集、测试集验证数据集（验证集）

当训练集稀缺时，解决方案：K折交叉验证。

原始训练数据被分成K个不重叠的⼦集。然后执⾏K次模型训练和验证，
每次在K − 1个⼦集上进⾏训练，并在剩余的⼀个⼦集（在该轮中没有⽤于训练的⼦集）上进⾏验证。最后，
通过对K次实验的结果取平均来估计训练和验证误差。

参考资料：动⼿学深度学习、吴恩达机器学习

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。