【机器学习12】-欠拟合、过拟合
以下是关于机器学习模型拟合三种状态(欠拟合、适度拟合、过拟合)的核心总结和应对策略:
回归案例
1. 三种拟合状态的对比
状态 | 数学表达式示例 | 训练集表现 | 测试集表现 | 问题本质 | 图形特征 |
---|---|---|---|---|---|
欠拟合 | w 1 x w_1x w1x(线性模型) | 拟合效果差(高误差) | 拟合效果差 | 高偏差 | 曲线过于简单,无法捕捉趋势 |
适度拟合 | w 1 x + w 2 x 2 w_1x + w_2x^2 w1x+w2x2 | 拟合较好 | 拟合较好 | 泛化能力强 | 平滑曲线,匹配数据分布 |
过拟合 | w 1 x + w 2 x 2 + w 3 x 3 w_1x + w_2x^2 + w_3x^3 w1x+w2x2+w3x3 | 拟合完美(极低误差) | 拟合极差 | 高方差 | 曲线复杂,贴合噪声点 |
2. 关键问题与解决方案
(1) 欠拟合(Underfit)
• 原因:模型太简单(如线性模型拟合非线性数据)。
• 解决:
• 增加特征(如多项式特征
x
2
,
x
3
x^2, x^3
x2,x3)。
• 使用更复杂的模型(如决策树、神经网络)。
• 减少正则化强度(若使用了正则化)。
(2) 适度拟合(Just Right)
• 目标:模型复杂度与数据真实分布匹配。
• 方法:
• 交叉验证选择最佳模型复杂度。
• 平衡偏差和方差(如通过正则化调优)。
(3) 过拟合(Overfit)
• 原因:模型过于复杂,学习了噪声。
• 解决:
• 增加训练数据量。
• 使用正则化(L1/L2正则化)。
• 简化模型(如减少多项式阶数、剪枝决策树)。
• 早停法(Early Stopping)。