神经网络训练中的过拟合与正则化
1. 训练目标与过拟合问题
训练模型的目标是让它学习到数据集所采样的母体分布的基本、通用特征。这样,当模型遇到新的输入时,就能正确地对其进行解读。训练神经网络的主要方法是优化,即寻找一组“最佳”参数,使网络在训练集上的误差尽可能小。
然而,仅仅寻找使训练误差最小的参数集是不够的。如果在对训练数据进行分类时没有错误,这往往意味着模型过拟合了,实际上并没有学到数据的通用特征。这种情况在传统模型(包括神经网络和经典模型)中更为常见,而在像卷积网络这样的深度模型中则相对较少。
1.1 理解过拟合
我们之前偶尔提到过过拟合,但对其缺乏直观的理解。可以通过曲线拟合问题来理解过拟合。曲线拟合是指找到一个函数来描述一组点,通常是通过优化误差度量,找到使误差最小的函数参数。这与训练神经网络的过程类似。
例如,有以下一组点:
| x | y |
| — | — |
| 0.00 | 50.0 |
| 0.61 | -17.8 |
| 1.22 | 74.1 |
| 1.83 | 29.9 |
| 2.44 | 114.8 |
| 3.06 | 55.3 |
| 3.67 | 66.0 |
| 4.28 | 89.1 |
| 4.89 | 128.3 |
| 5.51 | 180.8 |
| 6.12 | 229.7 |
| 6.73 | 229.3 |
| 7.34 | 227.7 |
| 7.95 | 354.9 |
| 8.57 | 477.1 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



