李宏毅ML-02-Where does the error come from? 误差分析

本文深入探讨了机器学习中常见的误差类型,bias和variance,以及它们与模型复杂度的关系。通过理解欠拟合和过拟合的概念,文章提供了减少误差的策略,如增加数据量、正则化和特征工程。此外,还介绍了交叉验证技术,以提高模型评估的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Where does the error come from?


Outline

  • 误差分析:bias 和 variance
  • Cross Validation交叉验证

1 误差分析

1.1 两种误差

一般的,我们把误差分为两类:

  • biasbiasbias偏差:指的是预测值的期望和真实值之间的偏差,表现了预测值的偏移程度;
  • variancevariancevariance方差:指的是预测数据的离散程度,和真实值无关。
    这两种误差分别对应着训练模型的不同问题。
1.2 误差和模型的关系
  • biasbiasbias
    模型越复杂biasbiasbias一般越小,在training set上表现越好, 拟合效果越好;同时受到training data的影响越大以至于最后overfitting
  • variancevariancevariance
    模型越简单平滑,波动越小,variancevariancevariance越小;但是模型过于简单,预测结果虽然不离散但是biasbiasbias较大-underfittingunderfittingunderfitting
    在这里插入图片描述
    所以要在两种errorerrorerror中找到平衡。
1.3 如何对待误差
1.3.1分辨误差
  • 如果model能在training data上有不好的结果,取得了较大的errorerrorerror,model可能具有较大的biasbiasbias;我们称之为欠拟合,under fitting
  • 如果模型在training set 上取地了较好的结果但是在test set上误差很大,model可能具有较大的 variancevariancevariance,我们称之为过拟合,over fitting
1.3.2如何减小误差
  • Large Variance
  • 使用更多的数据:更多的数据是最要好的方法,足够的数据可以提供足够的信息;试想如果我们的training set包括了所有可能的数据那么训练出的模型就是适用于所有test set的。
  • 正则化Regularization:前面的笔记中已经提到了,正则化可以帮助我们的到比较平滑的曲线,减小曲线的震荡程度;
  • Large Bias
  • 使用更多的 feature 作为input;
  • 重新设计更复杂的model;
小结

上面的关系总结一下就是
biasbiasbias:大-欠拟合,prefer较复杂的model;
variancevariancevariance:大-过拟合,prefer较平滑的model;


2 Cross Validation

为什么使用交叉验证?在评估模型好坏时,我们会使用test set,想看看model在检验集上表现得如何。但是每个test set不可能都是很完美的取样,训练集大多与现实中的数据之间有biasbiasbias(不是围绕数据中心的均匀取样)。所以这时候我们使用交叉验证来解决。

2.1 简单交叉验证
  • 我们随机的将training set分为两份,一份用于训练一份用于检验,这样就得到一个model即其准确率;
  • 将数据打乱后重复第一步又能得到一个model及其准确率;
  • 反复一二两步我们就能得到很多model,选择其中准确率最高的,再使用全体training set对其train一次产出我们的最终模型。

2.2 K-fold Cross Validation

将数据分为k份,k-1份用于训练生于一份用于test就得到了k个model。 选择最优的model,让其在整个training set上train一遍后得到最终的model。

内容概要:本文介绍了奕斯伟科技集团基于RISC-V架构开发的EAM2011芯片及其应用研究。EAM2011是一款高性能实时控制芯片,支持160MHz主频和AI算法,符合汽车电子AEC-Q100 Grade 2和ASIL-B安全标准。文章详细描述了芯片的关键特性、配套软件开发套件(SDK)和集成开发环境(IDE),以及基于该芯片的ESWINEBP3901开发板的硬件资源和接口配置。文中提供了详细的代码示例,涵盖时钟配置、GPIO控制、ADC采样、CAN通信、PWM输及RTOS任务创建等功能实现。此外,还介绍了硬件申领流程、技术资料获取渠道及开发建议,帮助开发者高效启动基于EAM2011芯片的开发工作。 适合人群:具备嵌入式系统开发经验的研发人员,特别是对RISC-V架构感兴趣的工程师和技术爱好者。 使用场景及目标:①了解EAM2011芯片的特性和应用场景,如智能汽车、智能家居和工业控制;②掌握基于EAM2011芯片的开发板和芯片的硬件资源和接口配置;③学习如何实现基本的外设驱动,如GPIO、ADC、CAN、PWM等;④通过RTOS任务创建示例,理解多任务处理和实时系统的实现。 其他说明:开发者可以根据实际需求扩展这些基础功能。建议优先掌握《EAM2011参考手册》中的关键外设寄存器配置方法,这对底层驱动开发至关重要。同时,注意硬件申领的时效性和替代方案,确保开发工作的顺利进行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值