机器学习中的过拟合与欠拟合问题解析
1. 交叉验证:有限数据下的有效策略
在数据处理过程中,我们可以根据需求多次重复循环,不断进行折叠选择的循环(或者打乱数据,确保每次集合的内容不同)。等所有操作完成后,还可以用全部数据训练一个全新的分类器。不过,这样做就无法评估其性能。但如果我们仔细观察训练过程,留意过拟合问题,通常可以认为用全部数据训练的系统至少和交叉验证中的最差表现一样好,甚至可能更好一些。
交叉验证在数据有限时是个不错的选择。虽然它需要多次重复训练 - 测试循环,而且最终的性能评估只是一个估计值,但它能让我们充分利用所有数据,挖掘输入数据集中的每一点信息,从而优化分类器。这种方法不仅适用于分类器,也广泛适用于几乎任何类型的学习器。
1.1 数据划分与验证
在训练深度学习系统时,我们一般会将数据分为训练集和测试集。同时,还会面临过拟合和数据泄露等问题。为了大致了解系统在每个训练周期后的学习情况,我们可以使用验证集。
1.2 交叉验证流程
graph LR
A[收集数据] --> B[数据划分]
B --> C[多次训练 - 测试循环]
C --> D[评估性能]
D --> E{是否使用全量数据训练}
E -- 是 --> F[全量数据训练分类器]
E -- 否 --> G[结束]
2. 过拟合与欠拟合:概念与影响
从有限的示例中学习通用规则是一项具有挑战性的任务。如果对示例细节关注不足,规则会过于笼
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



