李宏毅深度学习笔记（四）观测误差的来源——欠拟合和过拟合的解释

最新推荐文章于 2024-09-22 16:16:37 发布

原创最新推荐文章于 2024-09-22 16:16:37 发布 · 558 阅读

0 ·

CC 4.0 BY-SA版权

李宏毅深度学习专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨了机器学习中偏差和方差的概念，解释了它们如何导致欠拟合和过拟合，以及如何通过调整模型复杂度和样本量来优化模型。

测试误差一般来源于偏差(bias)和方差(variance)
当偏差(Bias)大的时候就会出现欠拟合，当方差(Variance)大的话就会出现过拟合。

先给出结论：
当偏差(Bias)大的时候我们可以通过增加特征个数（使用更复杂的模型）来优化。
当方差(Variance)大的时候我们可以通过增加样本个数或者正则化来优化。

什么是估计量的偏差和方差

$∙\bullet$ 估计变量 $x$ 的平均值：假设 $x$ 的平均值是 $μ\mu$ ;假设 $x$ 的方差是 $σ2\sigma^2$

那么在已知 $x$ 的一些样本点（但不知道全部）的情况下如何来求 $μ\mu$ 呢？例如已知 $N$ 个样本点{ $x^1,x^2,···,x^N$ }。

这时候就要期望来求 $μ\mu$ 值了，如下：

$m=1N∑i=1Nxi≠μm=\frac{1}{N}\sum_{i=1}^Nx^i\ne\mu$

$E[m]=E[1N∑i=1Nxi]=1N∑i=1NE[xi]=μE[m]=E[\frac{1}{N}\sum_{i=1}^Nx^i]=\frac{1}{N}\sum_{i=1}^NE[x^i]=\mu$

$m$ 的方差为（ $m$ 的方差取决于样本的个数）：

$Var[m]=σ2NVar[m]=\frac{\sigma^2}{N}$

$s2=1N∑i=1N(xn−m)2s^2=\frac{1}{N}\sum_{i=1}^N(x^n-m)^2$

$E[s2]=N−1Nσ2≠σ2E[s^2]=\frac{N-1}{N}\sigma^2\ne\sigma^2$

$N$ 越大 $E[s^2]$ 越接近 $σ2\sigma^2$

为什么测试误差来源于偏差和方差

在这里插入图片描述
如上图右下角部分的图所示，我们认为实际的目标为红色点，而我们所算出来的为蓝色的小点。取这些蓝色小点的期望为 $f^=E(f∗)\hat f=E(f^*)$ ,用如图所示的蓝色大点表示，那么蓝色大点与红色点之间的距离就是偏差(Bias)，而这些蓝色小点与蓝色大点之间的距离就构成了方差(Variance)。
左上角是最好的情况，此时它的偏差(Bias)和方差(Variance)都比较小；右上角的偏差(Bias)比较小，方差(Variance)比较大;左下角偏差(Bias)比较大，方差(Variance)比较小。

偏差和方差由什么因素决定

$∙\bullet$ 首先==方差(Variance)==是由模型的复杂度决定的，模型越复杂方差越大。
下面两幅图中的每一条函数曲线都是从同一分布中随机抓取相同数量的样本分别学习得到的预测曲线。
在这里插入图片描述
从上图可以看到当采用比较简单的模型时得到的预测曲线比较一致，当使用比较复杂的模型时得到的预测曲线就显得杂乱无章了。就像比较聚集的蓝色小点和比较分散的蓝色小点一样。

$∙\bullet$ 偏差(Bias)
如果我们把所有的 $f^*$ 做平均它是否会接近 $f^\hat f$ 呢？
我们先假设一个 $f^\hat f$ ，如下图：
在这里插入图片描述
我们分别用一次式、三次式和五次式为模型来对5000个不同的样本组进行学习并绘制出预测曲线，并用黑色曲线表示我们假设的 $f^\hat f$ ，用蓝色曲线表示对5000条预测曲线求平均后的曲线，如下图。

我们可以看到当模型越复杂的时候预测曲线的平均值曲线与真实曲线越相近，这是因为当我们用简单的模型去学习预测函数的时候它的值域会比较小且分布范围也小，当我们用比较复杂的模型去学习预测函数的时候它的值域会比较大且分布比较广。如下图。
在这里插入图片描述