机器学习中的监督学习是拟合函数\(f\),使得对数据进行建模
\[
Y=f(X)+\epsilon
\]
通常,我们只能建模去逼近函数\(f\), 即\(\hat{f}\),所以预测得到\(\hat{Y}\)
\[
\hat{Y} = \hat{f}(X)+\epsilon
\]
\(\epsilon\) 是训练集本身固有的误差,数据噪声,是不可减小,且在实际应用中是未知的
训练的目的是减少 \(f\) 和 \(\hat{f}\) 之间的误差,此误差可减小的,但我们没法直接衡量此误差,只能通过 \(Y\) 和 \(\hat{Y}\) 的误差来训练
所以,在减小 \(f\) 和 \(\hat{f}\) 时,我们可能训练得到的模型 \(\hat{f}\) 对训练集本身固有的误差 \(\epsilon\) 进行减少,
此时产生了训练过程的过拟合,而欠拟合则是在不减少本身固有的误差小,所建模型 \(\hat{f}\) 不足以逼近实际模型 \(f\),
或者说过拟合和欠拟合主要看哪个误差起到了决定性作用,即 \(f\) 和 \(\hat{f}\) 的误差与误差 \(\epsilon\) 对模型结果的误差起决定性作用
前面的误差太大导致欠拟合,后面的误差太小导致过拟合
本文深入探讨了机器学习中监督学习的基本原理,解析了如何通过拟合函数来建立数据模型,并详细讨论了过拟合与欠拟合的概念。文章指出,过拟合是指模型过分依赖训练集的固有误差,而欠拟合则是模型无法充分逼近实际函数,两者都可能导致模型的泛化能力下降。
472

被折叠的 条评论
为什么被折叠?



