21、机器学习中的过拟合与欠拟合问题解析

机器学习中的过拟合与欠拟合问题解析

1. 交叉验证在数据训练中的应用

在数据训练过程中,我们可以根据自身需求多次重复循环,不断重复折叠选择的周期,或者对数据进行混合处理,使每次的数据集合内容都有所不同。在一个可选的最终步骤里,我们能够使用全部数据来训练一个全新的分类器。不过,这样做我们就无法对其性能进行评估。但如果我们仔细观察训练过程,留意过拟合现象(后续会详细探讨),通常可以假定使用全部数据训练的系统至少和交叉验证中最差的性能表现一样好,甚至可能会更好一些。

交叉验证在数据有限的情况下是一个非常不错的选择。虽然我们需要多次重复训练 - 测试的循环,而且最终的性能评估也只是一个估计值,这些都是它的不足之处。但它的优势在于我们能够利用全部数据进行训练,充分挖掘输入数据集中的每一点信息,从而提升分类器的性能。

交叉验证算法不仅适用于分类器,还广泛适用于几乎任何类型的学习器。在训练深度学习系统时,我们通常会将数据分为两部分:训练集和测试集。同时,我们还需要了解过拟合和数据泄露等问题,并且可以使用验证集来大致了解系统在每个训练周期后的学习情况。

2. 过拟合与欠拟合的概念

无论是人类还是计算机,从有限的示例中学习某个主题的通用规则都是一项极具挑战性的任务。如果我们对示例的细节关注不足,所得到的规则就会过于笼统,在处理新数据时可能毫无用处;而如果我们过于关注示例中的细节,规则又会过于具体,同样在评估新数据时表现不佳。这两种现象分别被称为欠拟合和过拟合。其中,过拟合是更为常见且棘手的问题,如果不加以控制,可能会导致系统几乎毫无用处。我们可以通过正则化等技术来控制和抑制过拟合。

2.1 过拟合

我们可以用一

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值