机器学习算法优缺点对比(汇总篇)

本文介绍了统计学中衡量模型好坏的偏差与方差概念,解释了过拟合和欠拟合的区别。在小训练集上,朴素贝叶斯等高偏差/低方差模型优于KNN等低偏差/高方差模型,但随着训练集增加,后者的优势显现。选择模型时需平衡偏差和方差,避免过拟合和欠拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

笔记篇

#转载大神的文章

  1. 决策树与神经网络的定义是什么?他们的优缺点,应用的场景是什么?

  2. 偏差与方差

    在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差(bias)和方差(variance)。
    · 偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。
    在这里插入图片描述
    ·方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。
    在这里插入图片描述
    模型的真实误差是两者之和,如公式3:
    在这里插入图片描述
    通常情况下,如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的优势大(例如,KNN),因为后者会发生过拟合(overfiting)。然而,随着你训练集的增长,模型对于原数据的预测能力就越好,偏差就会降低,此时低偏差/高方差的分类器就会渐渐的表现其优势(因为它们有较低的渐近误差),而高偏差分类器这时已经不足以提供准确的模型了。
  3. 过拟合,欠拟合,误差

    过拟合表明采用的模型比真实的数据分布更复杂,而欠拟合表示采用的模型比真实的数据分布要简单。
    在统计学习框架下,大家刻画模型复杂度的时候,有这么个观点,认为Error = Bias + Variance。这里的Error大概可以理解为模型的预测错误率,是有两部分组成的,一部分是由于模型太简单而带来的估计不准确的部分(Bias),另一部分是由于模型太复杂而带来的更大的变化空间和不确定性(Variance)。
    所以,这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的,是一个被「严重简化了的模型」。所以,对于这样一个简单模型,大部分场合都会Bias部分大于Variance部分,也就是说高偏差而低方差。
    在实际中,为了让Error尽量小,我们在选择模型的时候需要平衡Bias和Variance所占的比例,也就是平衡over-fitting和under-fitting。
    当模型复杂度上升的时候,偏差会逐渐变小,而方差会逐渐变大
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值