深度学习中的过拟合与欠拟合问题解析
1. 交叉验证
在数据有限的情况下,交叉验证是一种非常实用的方法。我们可以根据需要多次重复循环,不断重复折叠选择的周期(或者打乱数据,使集合内容始终不同)。在可选的最后一步,我们可以用所有数据训练一个全新的分类器。不过,这样就无法评估其性能。但如果我们仔细观察训练过程,留意过拟合问题,通常可以假定用所有数据训练的系统至少和交叉验证中最差的表现一样好,甚至可能更好。
交叉验证也有一些缺点,比如需要多次重复训练 - 测试循环,而且最终的性能指标只是一个估计值。但它的优点在于能够利用所有数据进行训练,充分挖掘输入数据集中的每一点信息,从而优化分类器。
交叉验证算法不仅适用于分类器,几乎可以应用于任何类型的学习器。
1.1 交叉验证的操作步骤
- 多次重复循环,进行折叠选择(或打乱数据)。
- 可选步骤:用所有数据训练全新分类器。
- 观察训练过程,留意过拟合。
2. 过拟合与欠拟合的概念
学习通用规则是一项具有挑战性的任务。如果对示例细节关注不足,规则会过于笼统,在处理新数据时用处不大;而如果过于关注示例细节,规则又会过于具体,同样无法很好地评估新数据。这两种现象分别被称为欠拟合和过拟合。其中,过拟合更为常见和棘手,如果不加以控制,系统可能会变得几乎毫无用处。我们可以通过正则化技术来控制过拟合。
2.1 过拟合
过拟合就像是我们在一场露天婚礼上努力记住人们的名字。我们通过将每个人的外貌特征与他们的名字建立特定的心理关联来记忆。比如,遇到留着海象胡须的沃尔特,就把他想象成海象;遇
超级会员免费看
订阅专栏 解锁全文

461

被折叠的 条评论
为什么被折叠?



