揭开人工智能与机器学习基础的神秘面纱
1. 方差、过拟合与欠拟合
1.1 方差
在机器学习中,方差与数据中的信息相关。高方差意味着机器学习模型能够很好地捕捉给定数据中的整体信息,而低方差则相反。例如,支持向量机等算法通常具有高方差,而朴素贝叶斯等算法则具有低方差。
1.2 过拟合和欠拟合
- 过拟合 :当机器学习模型在训练数据上表现良好,但在测试集或验证集上表现不佳时,就会出现过拟合现象。常见原因包括:
- 模型相对于数据过于复杂,如具有非常高深度的决策树和多层神经网络。
- 数据有很多特征,但样本数量很少。
在机器学习文献中,过拟合问题也被视为高方差问题。正则化是防止过拟合最常用的方法。
- 欠拟合 :如果模型在训练数据上表现糟糕,则说明模型存在高偏差,即欠拟合。常见原因有:
- 模型过于简单,无法学习给定数据的潜在表示。
- 数据特征在输入机器学习模型之前没有得到很好的处理,即特征工程不足。
由此我们可以得出结论:过拟合的机器学习模型可能存在高方差问题,而欠拟合的模型可能存在高偏差问题。
1.3 训练误差和泛化误差
- 训练误差 :模型在训练阶段进行预测时所犯的错误总和。
- 泛化误差 :模型在验
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



