机器学习笔记---给“过拟合”下一个准确且规范的定义

最新推荐文章于 2025-04-25 21:59:41 发布

原创

最新推荐文章于 2025-04-25 21:59:41 发布 · 692 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了机器学习中的过拟合现象，通过线性回归实例展示了过拟合与欠拟合的区别。过拟合是模型结构复杂、过度匹配训练数据导致在新数据上表现不佳，而欠拟合则是模型过于简单无法捕获数据规律。过拟合的原因包括模型参数过多和训练数据不足。奥卡姆剃刀原则指出应选择最简单的模型。解决过拟合的方法包括降低模型复杂度、增加训练数据和正则化。

点击上方“潜心的Python小屋”关注我们，第一时间推送优质文章。

前言

大家好，我是潜心。由于在小组会上提到了“过拟合”现象，发现自己很难给它下一个标准且规范的定义。因此查了一些资料，并简单做了下实验，进行简单整理。

本文约3k字，预计阅读15分钟。

过拟合与欠拟合

以一个简单的线性回归开始

简单的线性回归能够直观的反应过拟合和欠拟合的现象。首先我们随机生成若干个符合某二次多项式函数的点，并加入噪声，作为训练集。然后我们使用三个简单的线性模型（1次项回归，2次多项式回归、5次多项式回归）【注：多次项回归本质来说还是一个线性模型】来进行拟合，最后可视化，如下图所示。

我们发现，1次项的模型结构简单，但拟合结果其他二者更差，无法捕捉数据中的规律，所以该模型出现了欠拟合的现象。

5次多项式回归的全部特征为：（此处我们在最简单的线性回归中只使用了1个特征

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。