机器学习中的过拟合与解决办法

本文深入解析过拟合现象,探讨其在机器学习中的影响及如何避免。通过实例展示训练与测试损失的变化,提出解决策略,如增加数据量、选择合适模型、采用正则化等方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是过拟合

对于机器学习项目而言,过拟合(overfitting)这个问题一般都会遇到。什么是过拟合呢?

维基百科

  • 在统计学中,过拟合现象是指在拟合一个统计模型时,使用过多参数。对比于可获取的数据总量来说,一个荒谬的模型只要足够复杂,是可以完美地适应数据。过拟合一般可以视为违反奥卡姆剃刀原则。当可选择的参数的自由度超过数据所包含信息内容时,这会导致最后(拟合后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应数据。过拟合的可能性不只取决于参数个数和数据,也跟模型架构与数据的一致性有关。此外对比于数据中预期的噪声或错误数量,跟模型错误的数量也有关。

  • 过拟合现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练示例来训练的。亦即预期结果的示例是可知的。而学习者则被认为须达到可以预测出其它示例的正确的结果,因此,应适用于一般化的情况而非只是训练时所使用的现有数据(根据它的归纳偏向)。然而,学习者却会去适应训练数据中太特化但又随机的特征,特别是在当学习过程太久或示例太少时。在过拟合的过程中,当预测训练示例结果的表现增加时,应用在未知数据的表现则变更差。

  • 相对于过拟合是指,使用过多参数,以致太适应数据而非一般情况,另一种常见的现象是使用太少参数,以致于不适应数据,这则称为欠拟合(underfitting),或称:拟合不足现象。

这里不展开说明欠拟合现象,后续补上。总的来说,是学习得过头了,死记硬背的那种学习,对于训练数据预测得非常准确,但当遇到新的问题时候,泛化能力不行,无法作出正确的预测。
过拟合
绿线代表过拟合模型,黑线代表正则化模型。虽然绿线完美的匹配训练数据,但太过依赖,并且与黑线相比,对于新的测试数据上具有更高的错误率。

知乎

知乎上有个帖子:用简单易懂的语言描述「过拟合 overfitting」?
在这里插入图片描述
过拟合其实就是一种机器学习没找到正确的规律情况,所以要搞懂什么是过拟合首先得搞懂为什么机器学习能找出正确规律。

具体情况

实际中遇到的问题,训练和测试曲线如下:
在这里插入图片描述
可以看到训练损失一直下降,但测试损失先下降后上升。

解决办法

在统计和机器学习中,为了避免过拟合现象,须要使用额外的技巧,以指出何时会有更多训练而没有导致更好的一般化。具体有以下几种方法:

  • 获取更多数据;
  • 使用合适的模型;
  • 结合多种模型;
  • 贝叶斯方法;

在这里插入图片描述

在这里插入图片描述
增大训练数据后,加入earlystopping,曲线稍微好点。

参考

过拟合和欠拟合是机器学习中常见的问题,可以通过以下方法来解决: 过拟合(Overfitting):模型在训练集上表现良好,但在测试集或新数据上表现不佳。 1. 数据集扩充:增加更多的训练数据可以减少模型过拟合的风险,通过收集更多样本或者使用数据增强技术(如翻转、旋转、裁剪等)来生成更多的训练样本。 2. 正则化(Regularization):正则化是一种通过约束模型参数来防止过拟合的方法。常见的正则化技术包括L1正则化和L2正则化,它们分别通过参数的绝对值和平方和来惩罚模型复杂度,使得模型更加简单。 3. 特征选择:选择最相关的特征来训练模型,减少不相关或冗余特征的影响。可以使用特征选择算法(如相关系数、信息增益等)或者基于模型的特征选择方法(如LASSO回归)来进行特征选择。 欠拟合(Underfitting):模型无法很好地拟合训练集数据,无法捕捉到数据中的复杂关系。 1. 增加模型复杂度:如果模型太简单,无法拟合数据的复杂关系,可以尝试增加模型的复杂度,如增加神经网络的层数或神经元的个数,增加决策树的深度等。 2. 减少正则化:如果使用了正则化方法(如L1正则化或L2正则化),可以尝试减少正则化的程度,以降低对模型的约束,使其更加灵活。 3. 增加特征数量:如果模型无法捕捉到特征之间的非线性关系,可以尝试添加更多的特征,如特征的高次项、交互项等。 需要根据具体情况综合考虑这些方法,并进行实验调优,以找到最适合的解决办法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

uncle_ll

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值