神经网络学习信号与忽略噪声:应对过拟合的策略
1. 神经网络的初步表现
神经网络在训练阶段表现出色,能够完美预测 1000 张图像。它通过迭代每张图像,进行预测并微调权重,最终实现对所有训练图像的准确预测。然而,当用未参与训练的图像进行测试时,情况却不容乐观。例如,在 MNIST 数据集上,测试准确率仅为 70.7%,远低于训练时的 100%准确率。这个测试准确率是衡量神经网络在实际应用中性能的关键指标,因为在现实世界中,网络面对的往往是未曾见过的图像。
2. 记忆与泛化的差异
记忆 1000 张图像相对容易,但要将这种能力泛化到所有图像则困难得多。神经网络通过调整矩阵中的权重,学习将特定输入转换为特定输出。然而,当应用于新图像时,只有新图像与训练数据中的图像几乎相同时,网络才能保证良好的性能。因为网络只学习了特定输入配置下的数据转换,对于不熟悉的图像,它只能随机预测。这使得神经网络仅在训练数据上有效变得毫无意义,其真正价值在于对未知数据的处理能力。
以下是训练过程中训练准确率和测试准确率的部分数据:
| 迭代次数 | 训练误差 | 训练准确率 | 测试误差 | 测试准确率 |
| ---- | ---- | ---- | ---- | ---- |
| 0 | 0.722 | 0.537 | 0.601 | 0.6488 |
| 10 | 0.312 | 0.901 | 0.420 | 0.8114 |
| 20 | 0.260 | 0.93 | 0.414 | 0.8111 |
| 30 | 0.232 | 0.946 | 0.417 | 0.8066 |
| 40 | 0.215
超级会员免费看
订阅专栏 解锁全文
1297

被折叠的 条评论
为什么被折叠?



