闲话机器学习中偏差---方差权衡问题

junjie20082008

于 2019-02-21 16:08:36 发布

阅读量421

点赞数

CC 4.0 BY-SA版权

分类专栏：算法 python 数据挖掘深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/junjie20082008/article/details/87861378

算法同时被 3 个专栏收录

20 篇文章

订阅专栏

14 篇文章

订阅专栏

13 篇文章

订阅专栏

本文探讨了机器学习中偏差与方差的平衡问题，通过分析训练集和验证集误差，阐述了高偏差（欠拟合）和高方差（过拟合）的特征，并总结了不同误差情况下的模型状态。最终目标是找到低偏差、低方差的理想模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习中，寻找偏差与方差平衡是机器学习中的根本。

一般的，针对机器学习而言，数据集在模型训练中会被分为训练集（training data）、验证集（validation data）、测试集（test data）。其中，测试集是在模型训练好后，对该模型的客观评价，测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系，测试集就不过多的探讨。

模型的偏差=偏差+方差+不可消除的偏差（对于给定的模型，该误差是无法消除的误差）。

调参的本质就在于偏差与方差之间的平衡。

1.高偏差

如图2所示，最左边的图像的模型是一条直线，对于数据的分类“较差”（欠拟合），通俗的讲，我们可以认为该模型具有较高的偏差。最右边的图像是一条高阶曲线，很“精确”的区分了两类数据，但是实际上泛化能力却很差（过拟合），那么我们就认为该模型是高方差。简单的讲，高偏差会带来模型欠拟合问题，而高方差由于对未知数据太过敏感，一般是过拟合问题。从这方面我们可以看出，机器学习中模型的训练、调参的根本就是为了找到偏差、方差的平衡。

下面从模型数据集的误差来探讨这个问题：

首先我们假设最优误差或者贝叶斯误差接近与0（一会会说为啥有这个假设了）

1.高方差

trainning data error：1%

val data error：11%

在训练集 error低，但是在验证集上出现较高的error，就是我们所谓的过拟合。一般情况下，过拟合对应着高方差。

2.高偏差、低方差

trainning data error：15%

val data error：16%

欠拟合的模型，在训练集和验证集上都有较高的error，但是两者的error接近。

3.高偏差，高方差

trainning data error：15%

val data error：30%

该情况下，在训练集和验证集上都有较高的error，且两者的error差距也比较大。

4.低偏差、低方差

trainning data error：0.5%

val data error：1%

低偏差，低方差，就是我们做模型梦寐以求的情况，如果你得到这样的模型，那么恭喜你，你接近成功了。

问题：如果我们假设的最优误差或贝叶斯误差不接近与0，而是接近与15%呢？

那么，在2这种情况下就不是高偏差了，而是低偏差，低方差。

总结：

1.训练误差、验证误差都接近最优误差的情况：低偏差、低方差。

2.训练误差接近最优误差，验证误差离最优误差较远：高方差（过拟合）

3.训练误差离最优误差较远：高偏差（欠拟合）

4.训练误差离最优误差较远，而且验证误差离训练误差也较远：高偏差、高方差

PS：以上纯属自己的个人理解。难免会有不太准确的地方，欢迎各位指正，共同学习，进步。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。