机器学习中的过拟合与欠拟合问题解析
1. 交叉验证在数据训练中的应用
在数据训练过程中,我们可以根据自身需求多次重复循环,不断重复折叠选择的周期,或者对数据进行混合处理,使每次的数据集合内容都有所不同。在一个可选的最终步骤里,我们能够使用全部数据来训练一个全新的分类器。不过,这样做我们就无法对其性能进行评估。但如果我们仔细观察训练过程,留意过拟合现象(后续会详细探讨),通常可以假定使用全部数据训练的系统至少和交叉验证中最差的性能表现一样好,甚至可能会更好一些。
交叉验证在数据有限的情况下是一个非常不错的选择。虽然我们需要多次重复训练 - 测试的循环,而且最终的性能评估也只是一个估计值,这些都是它的不足之处。但它的优势在于我们能够利用全部数据进行训练,充分挖掘输入数据集中的每一点信息,从而提升分类器的性能。
交叉验证算法不仅适用于分类器,还广泛适用于几乎任何类型的学习器。在训练深度学习系统时,我们通常会将数据分为两部分:训练集和测试集。同时,我们还需要了解过拟合和数据泄露等问题,并且可以使用验证集来大致了解系统在每个训练周期后的学习情况。
2. 过拟合与欠拟合的概念
无论是人类还是计算机,从有限的示例中学习某个主题的通用规则都是一项极具挑战性的任务。如果我们对示例的细节关注不足,所得到的规则就会过于笼统,在处理新数据时可能毫无用处;而如果我们过于关注示例中的细节,规则又会过于具体,同样在评估新数据时表现不佳。这两种现象分别被称为欠拟合和过拟合。其中,过拟合是更为常见且棘手的问题,如果不加以控制,可能会导致系统几乎毫无用处。我们可以通过正则化等技术来控制和抑制过拟合。
2.1 过拟合
我们可以用一
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



