神经网络性能提升方法与激活函数解析
1. Dropout在MNIST数据集上的评估
在之前的实验中,未使用Dropout的神经网络在测试准确率达到81.14%后下降,最终训练结束时的测试准确率为70.73%。而添加Dropout后,神经网络的表现有了显著变化,以下是部分训练过程中的数据:
| 迭代次数 | 测试误差 | 测试准确率 | 训练误差 | 训练准确率 |
| ---- | ---- | ---- | ---- | ---- |
| I:0 | 0.641 | 0.6333 | 0.891 | 0.413 |
| I:10 | 0.458 | 0.787 | 0.472 | 0.764 |
| I:20 | 0.415 | 0.8133 | 0.430 | 0.809 |
|… |… |… |… |… |
| I:290 | 0.399 | 0.8181 | 0.301 | 0.908 |
添加Dropout后,网络的最高准确率达到了82.36%,并且过拟合现象明显减轻,训练结束时的测试准确率为81.81%。同时,Dropout会使训练准确率的提升速度变慢,之前未使用Dropout时训练准确率会直接达到100%并保持。这是因为Dropout本质上是一种噪声,它增加了网络在训练数据上的训练难度,就像跑步时腿上绑着沙袋,训练时更困难,但去掉沙袋后在正式比赛中就能跑得更快。
2. 批量梯度下降
批量梯度下降是一种提高训练速度和收敛率的方法。之前我们一次训练一个样本,并在每个样本训练后更新权重。现在,我们一次训练100个样本,并对这100个样本的权重更新进行平均。以下是训练和测试的部分输
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



