机器学习中的bias和variance

最新推荐文章于 2025-03-18 20:02:11 发布

莱尼布鲁斯

最新推荐文章于 2025-03-18 20:02:11 发布

阅读量925

点赞数 1

分类专栏： Machine Learning\Deep Learning 文章标签：机器学习深度学习 python 算法

本文链接：https://blog.youkuaiyun.com/qq_45769877/article/details/113822589

版权

Machine Learning\Deep Learning 专栏收录该内容

21 篇文章

订阅专栏

本文详细介绍了模型性能度量的重要指标，包括误差、误差期望值及其组成：样本噪声、模型预测值的方差和偏差。通过误差期望值公式阐述了模型复杂度与偏差、方差的关系，并分析了偏差与方差在训练集上的体现。针对欠拟合（高偏差、低方差）和过拟合（低偏差、高方差）问题，提出了相应的解决方案，如增加模型复杂度、正则化等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型性能度量

在监督学习中，通过已知样本数据 $x1,y1),(x2,y2),...,(x_n,y_n)$ ，要求在设定好的模型上训练参数，拟合出一个最好的函数 $\widehat{f}$ ，使得预测值 $\widehat{f}(x)$ 与实际值 $y$ 的误差最小。性能测试时，使用拟合函数 $\widehat{f}$ 对样本数据预测，可以采用均方误差MSE来判断其拟合程度的好坏。

误差

误差来源于三方面：
样本噪声：样本数据由采样而来， $y$ 并不是真实值本身，假设真实模型（函数）是 $f$ ，则采样值 $y = f (x) + ε$ ，其中ε代表噪音，其均值为0，方差为 $σ^2$
模型预测值的方差：采用特定模型，每次在样本中随机选取固定大小的训练集进行训练，假设n次训练后得到n个函数 $\widehat{f}$ ，用这n个函数对样本预测得到n个预测值 $\widehat{f}(x)$ ，这n个预测值的方差即为预测模型的方差
模型预测值的偏差：对这n个预测值 $\widehat{f}(x)$ 取平均后得到预测值期望 $E(\widehat{f}(x))$ ，作为我们最终的预测结果， $E(\widehat{f}(x))$ 与真实值 $f (x)$ 的距离即为偏差

误差期望值

期望值的含义是指在同样的条件下重复多次随机试验，得到的所有可能状态的平均结果。对于机器学习来说，这种实验就是我们选择一种算法（并选定超参数），以及设置一个固定的训练集大小，这就是同样的条件，也就是上文所说的特定的模型。然后每次训练时从样本空间中选择一批样本作为训练集，但每次都随机抽取不同的样本，这样重复进行多次训练。每次训练会得到一个具体的模型，每个具体模型对同一个未见过的样本进行预测可以得到预测值。不断重复训练和预测，就能得到一系列预测值，根据样本和这些预测值计算出方差和偏差，就可以帮助我们考察该特定模型的预测误差的期望值，也就能衡量该特定模型的性能。对比多个特定模型的误差的期望值，可以帮助我们选择合适的模型。

误差期望值公式

误差的期望值 = 噪音的方差 + 模型预测值的方差 + 模型预测值的偏差的平方
$\widehat{f}(x))^2) = σ^2+Var[\widehat{f}(x)] + (Bias[\widehat{f}(x)])^2$

误差分析案例

偏差 - 方差在训练集上的体现

方差与偏差是由model的复杂程度决定的，一个简单的model在不同的training data set下可以获得比较稳定分布的 $\widehat{f}$ ，而复杂的model在不同的training data set下的分布比较散乱(如果data足够多，那复杂的model也可以得到比较稳定的分布)。

直观得可以看出，如果采用简单的model，那么每次实验所得 $\widehat{f}$ 之间的variance是比较小，而bias可能比较大；如果采用复杂的model，那么每次实验所得 $\widehat{f}$ 之间的variance是比较大，而bias比较小。

因为简单的model（没有高次项的model，或者高次项的系数非常小的model）受到个别的data的影响是比较小的，对个别data的敏感度较小，最终表现得会比较平滑，而复杂的model对个别data的较为敏感，在个别data的身上学得的东西较多，这就导致简单的model对data的拟合程度并不是很好导致其bias较大，但每次训练得到的 $\widehat{f}$ 分布比较稳定因而其variance较小，复杂model相反。