机器学习初学者——模型评估与选择

最新推荐文章于 2022-10-08 23:28:33 发布

原创

最新推荐文章于 2022-10-08 23:28:33 发布 · 674 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文针对机器学习初学者，详细介绍了经验误差与过拟合的概念，并探讨了模型选择的重要性和不同评估方法。同时，文章还深入讨论了性能度量指标，帮助读者更好地理解和优化模型。

一.经验误差与过拟合

1、错误率：

通常把分类错误的样本数占样本总数的比例称为错误率（Error rate）。

例如m个样本中有a个样本分类错误，则错误率E=a/m。相应的1-a/m 称为精度（accuracy），即精度=1-错误率。

2、误差：

1）我们把机器学习在训练集上的误差称为“训练误差”（training error）或“经验误差”（empirical error）；

2）而在新样本集的误差称为“泛化误差”（generalization error）。

显然我们要得到泛化误差小的学习器，然而很多情况下，我们并不能实现知道新样本是什么样的，实际能做的就是努力使经验误差最小化。

3、过拟合：

为了得到好的识别效果，我们希望能从训练样本中尽可能的学出适用于所有的样本的“普遍规律”。然而当学习器把训练样本学得“太好”的时候，很有可能把训练样本自身的一些特点当做了潜在新样本的特性，这样就会导致新样本的识别率减低，即泛华误差增大。这种现象称为“过拟合“（overfitting）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。