误差偏差方差

最新推荐文章于 2024-09-22 22:22:12 发布

原创最新推荐文章于 2024-09-22 22:22:12 发布 · 826 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

78 篇文章

订阅专栏

以机器学习算法来说，其泛化误差可以分解为两部分，偏差（bias)和方差(variance)。这个可由下图的式子导出（这里用到了概率论公式D(X)=E(X^2)-[E(X)]^2）。偏差指的是算法的期望预测与真实预测之间的偏差程度，反应了模型本身的拟合能力；方差度量了同等大小的训练集的变动导致学习性能的变化，刻画了数据扰动所导致的影响。这个有点儿绕，不过你一定知道过拟合。

&lt;img src="https://i-blog.csdnimg.cn/blog_migrate/5ef9a5930e184bacf915a9827b95eede.png" data-rawwidth="320" data-rawheight="108" class="content_image" width="320"&gt;如下图所示，当模型越复杂时，拟合的程度就越高，模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大，即模型的方差很大。所以模型过于复杂的时候会导致过拟合。

如下图所示，当模型越复杂时，拟合的程度就越高，模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大，即模型的方差很大。所以模型过于复杂的时候会导致过拟合。
当模型越简单时，即使我们再换一组数据，最后得出的学习器和之前的学习器的差别就不那么大，模型的方差很小。还是因为模型简单，所以偏差会很大。
&lt;img src="https://i-blog.csdnimg.cn/blog_migrate/0aa59b8d8c1999a24c77872b2c11635b.png" data-rawwidth="455" data-rawheight="281" class="origin_image zh-lightbox-thumb" width="455" data-original="https://pic4.zhimg.com/1cca0e32949ab02127e56636b0ff080f_r.png"&gt;
也就是说，当我们训练一个模型时，偏差和方差都得照顾到，漏掉一个都不行。
对于Bagging算法来说，由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance) $\mathbf{E}[h-\mathbb{E}(h)]$ ,因为采用了相互独立的基分类器多了以后，h的值自然就会靠近 $\mathbb{E}(h)$ .所以对于每个基分类器来说，目标就是如何降低这个偏差（bias),所以我们会采用深度很深甚至不剪枝的决策树。

对于Boosting来说，每一步我们都会在上一轮的基础上更加拟合原数据，所以可以保证偏差（bias）,所以对于每个基分类器来说，问题就在于如何选择variance更小的分类器，即更简单的分类器，所以我们选择了深度很浅的决策树。

误差 偏差 方差

误差偏差方差