深度学习中的过拟合、欠拟合与交叉验证
1. 交叉验证
交叉验证是一种在数据有限时非常实用的技术。在循环的每一轮中,我们选择一个折叠(子集)用于测试(蓝色部分),其余的用于训练(红色部分)。如果循环超过五次,就会重复这个模式。我们可以根据需要多次重复循环,要么重复折叠选择的周期,要么打乱数据,使每次的集合内容不同。
在可选的最后一步,我们可以用所有数据训练一个新的分类器。这样做无法估计其性能,但如果仔细观察训练过程,留意过拟合问题,通常可以假设用所有数据训练的系统至少和交叉验证中最差的性能一样好,甚至可能更好一点。
交叉验证的优缺点如下:
| 优点 | 缺点 |
| ---- | ---- |
| 能够利用所有数据进行训练,充分挖掘输入数据中的信息,提升分类器性能 | 需要多次重复训练 - 测试循环,计算成本高 |
| | 最终的性能度量只是一个估计值 |
交叉验证不仅适用于分类器,几乎可以应用于任何类型的学习器。
2. 过拟合与欠拟合
2.1 概念
从有限的示例中学习关于某个主题的通用规则是一项具有挑战性的任务。如果对示例细节关注不足,规则会过于笼统,在面对新数据时用处不大;而如果过于关注示例细节,规则又会过于具体,同样无法很好地评估新数据。这两种现象分别被称为欠拟合和过拟合,其中过拟合更为常见和棘手,若不加以控制,可能导致系统几乎毫无用处。我们可以通过正则化技术来控制过拟合。
2.2 过拟合
2.2.1 比喻示例
假设我们受邀参加一个露天婚礼,几乎不认识任何人。为了记住人们的名字,我们
深度学习过拟合与欠拟合解析
超级会员免费看
订阅专栏 解锁全文
1469

被折叠的 条评论
为什么被折叠?



