机器学习中的模型正则化与逻辑回归
1. 偏差与方差权衡
1.1 偏差与方差的概念
在机器学习中,模型的泛化误差可以分解为三个不同的部分:偏差(Bias)、方差(Variance)和不可约误差(Irreducible error)。
- 偏差 :这部分泛化误差是由于错误的假设导致的。例如,当数据实际上是二次函数关系时,却假设为线性关系。高偏差的模型很可能对训练数据欠拟合。
- 方差 :这部分误差是由于模型对训练数据中的小变化过于敏感造成的。具有很多自由度的模型(如高次多项式模型)可能具有高方差,从而对训练数据过拟合。
- 不可约误差 :这部分误差是由数据本身的噪声引起的。减少这部分误差的唯一方法是清理数据,例如修复数据源(如损坏的传感器)或检测并移除异常值。
1.2 偏差与方差的权衡关系
通常情况下,增加模型的复杂度会增加其方差并降低其偏差;相反,降低模型的复杂度会增加其偏差并降低其方差。这就是所谓的偏差 - 方差权衡。
1.3 过拟合的判断与解决方法
当训练数据和验证数据的曲线之间存在差距时,意味着模型在训练数据上的表现明显优于验证数据,这是过拟合模型的标志。一种改善过拟合模型的方法是提供更多的训练数据,直到验证误差达到训练误差。
2. 正则化线性模型
2.1 正则化的基本思想
减少过拟合的一个好方法是对模型进行正则化,即约束模型。模型的自由度越少,就越难对数据进行过拟合。对于多项式模型,一种简单的正则化方法是减少多项式的次数;
超级会员免费看
订阅专栏 解锁全文
532

被折叠的 条评论
为什么被折叠?



