机器学习中的过拟合避免与数据处理技巧
1. 正则化避免过拟合
过拟合是机器学习中常见的问题,其一个重要来源是模型的不必要复杂性。正则化是防止过拟合的有效方法,它通过在要最小化的误差函数中添加额外参数,对复杂模型进行惩罚。
1.1 奥卡姆剃刀原理
根据奥卡姆剃刀原理,应优先选择更简单的方法。在1320年左右,哲学家威廉·奥卡姆提出,拟合数据的最简单假设应该被优先考虑。原因在于,简单模型的数量比复杂模型少。例如,线性模型(y = ax + b)仅由截距b和斜率a两个参数决定,其系数的可能取值范围是二维空间;而二次多项式增加了一个二次项系数,系数的取值范围扩展到三维空间。因此,高阶多项式函数更容易找到能完美拟合所有训练数据点的模型,但其泛化能力往往不如线性模型,且更容易过拟合,同时简单模型所需的计算时间也更少。
1.2 正则化的作用
我们可以使用正则化来减少高阶多项式的影响,对其施加惩罚,从而抑制模型的复杂性。虽然从训练数据中学习到的规则可能不够准确和严格,但模型的泛化能力会得到提升。
1.3 正则化的类比理解
假设有一位数据科学家想让他的机器人看门狗具备识别陌生人和朋友的能力。他提供了一些学习样本,机器人可能会学到非常复杂的规则,如“任何中等身高、不戴眼镜且穿黑色衣服的中年女性是陌生人”“任何矮小、不戴眼镜且穿黑色衣服的老年男性是陌生人”,其他人为朋友。这些规则虽然完美拟合了训练数据,但过于复杂,难以推广到新的访客。相比之下,一个更宽松的规则“任何不戴眼镜且穿黑色衣服的人是陌生人”可能对数百个其他访客都适用。
1.4 提前停止训练
除了惩罚复杂性,提
机器学习过拟合避免与数据处理技巧
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



