Diagnosing Bias vs. Variance
讲完模型选择,我们接下来讲讲如何去诊断我们算法出现的问题到底是一个high bias(underfitting)的问题还是一个high variance(overfitting)的问题又或者同时两个问题同时存在,因为几乎所有的导致test error不理想的原因都来自于这三种情况中的一种。
我们还是从我们最熟悉的一张图引入(线性拟合):
左图欠拟合,右图过拟合,中间刚刚好。
那么现在我们换一张图来看看这三种情况的呈现形式
其实线性回归中,次方代表的就是参数个数,次方低表示参数少,次方高代表参数多。那么上图就是参数个数-error曲线图。
- 欠拟合
Jtrain(Θ)≈Jcv(Θ)J_{train}(\Theta)\approx J_{cv}(\Theta)Jtrain(Θ)≈Jcv(Θ),并且它们都很大,即验证集和训练集的error都很高(这里cv代表的是验证集) - 过拟合
Jtrain(Θ)J_{train}(\Theta)Jtrain(Θ) 很小,同时Jcv(Θ)J_{cv}(\Theta)Jcv
理解机器学习:偏差与方差的诊断

本文探讨了机器学习中偏差与方差的概念,通过图表解释了欠拟合和过拟合的表现。介绍了正则化在处理过拟合中的作用以及选择合适正则化系数的方法。学习曲线作为一种有效的诊断工具,帮助区分高偏差和高方差问题。针对不同问题,提出了相应的解决方案,如增加训练数据、减少特征或调整正则化参数。
最低0.47元/天 解锁文章
1318

被折叠的 条评论
为什么被折叠?



