机器学习基础 - [第四章:正则化](1)过拟合问题

本文深入探讨了机器学习中的过拟合问题,通过线性回归和逻辑回归实例,阐述了过拟合的表现形式及原因。并提出了两种有效的解决策略:减少特征数量和应用正则化技术,帮助读者理解如何在实际项目中避免过拟合,提高模型的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、什么是过拟合?

过拟合问题:由于我们有大量的特征,学习到的假设函数能够很好的拟合训练集(即代价函数能最小化到趋近0:minimizeθJ(θ)→0minimize_{\theta}J(\theta)\rightarrow0minimizeθJ(θ)0),但是假设函数却很难泛化新样本。
下面两个图分别是线性回归和逻辑回归针对同一个数据集的三个不同假设函数,从图中可以看出,第一个假设函数对数据的拟合很差,具有很高的偏差,我们称之欠拟合(under-overfitting),第三个假设函数能够完美的拟合数据,但是具有很高的方差(曲线波动很大),我们称之为过拟合(overfitting);而中间的这个假设函数在拟合数据时,既没有很高的偏差,也没有很高的方差,我们称之为刚刚好。
(1)线性回归
在这里插入图片描述
(2)逻辑回归
在这里插入图片描述

2、解决过拟合的方法有哪些?

解决过拟合问题的方法主要有以下几种:
(1)减少特征的数量

  • 手动选择一些特征保留;
  • 模型选择算法;
  • 这种方法会丢弃一些特征,如果选择不当,可能会丢弃对模型影响很大的特征;

(2)正则化

  • 保留所有的特征,但是会减小参数θj\theta_{j}θj的值;
  • 当我们有大量特征时,正则化的效果会非常好,因为每一个特征都会对模型的预测能力做出贡献。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Albert_YuHan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值