机器学习算法优缺点对比（汇总篇）

最新推荐文章于 2021-02-14 21:37:00 发布

茶茶小甜豆

最新推荐文章于 2021-02-14 21:37:00 发布

阅读量321

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zyd_1129/article/details/108882843

版权

本文介绍了统计学中衡量模型好坏的偏差与方差概念，解释了过拟合和欠拟合的区别。在小训练集上，朴素贝叶斯等高偏差/低方差模型优于KNN等低偏差/高方差模型，但随着训练集增加，后者的优势显现。选择模型时需平衡偏差和方差，避免过拟合和欠拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记篇

#转载大神的文章

决策树与神经网络的定义是什么？他们的优缺点，应用的场景是什么？
偏差与方差
在统计学中，一个模型好坏，是根据偏差和方差来衡量的，所以我们先来普及一下偏差(bias)和方差(variance)。
· 偏差：描述的是预测值（估计值）的期望E’与真实值Y之间的差距。偏差越大，越偏离真实数据。

·方差：描述的是预测值P的变化范围，离散程度，是预测值的方差，也就是离其期望值E的距离。方差越大，数据的分布越分散。

模型的真实误差是两者之和，如公式3：

通常情况下，如果是小训练集，高偏差/低方差的分类器（例如，朴素贝叶斯NB）要比低偏差/高方差大分类的优势大（例如，KNN），因为后者会发生过拟合（overfiting）。然而，随着你训练集的增长，模型对于原数据的预测能力就越好，偏差就会降低，此时低偏差/高方差的分类器就会渐渐的表现其优势（因为它们有较低的渐近误差），而高偏差分类器这时已经不足以提供准确的模型了。
过拟合，欠拟合，误差
过拟合表明采用的模型比真实的数据分布更复杂，而欠拟合表示采用的模型比真实的数据分布要简单。
在统计学习框架下，大家刻画模型复杂度的时候，有这么个观点，认为Error = Bias + Variance。这里的Error大概可以理解为模型的预测错误率，是有两部分组成的，一部分是由于模型太简单而带来的估计不准确的部分（Bias），另一部分是由于模型太复杂而带来的更大的变化空间和不确定性（Variance）。
所以，这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的，是一个被「严重简化了的模型」。所以，对于这样一个简单模型，大部分场合都会Bias部分大于Variance部分，也就是说高偏差而低方差。
在实际中，为了让Error尽量小，我们在选择模型的时候需要平衡Bias和Variance所占的比例，也就是平衡over-fitting和under-fitting。
当模型复杂度上升的时候，偏差会逐渐变小，而方差会逐渐变大

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。