神经网络优化技术与激活函数详解
1. Dropout在MNIST数据集上的评估
在之前的神经网络训练中,未使用Dropout时,测试准确率最高达到81.14%,最终训练结束时准确率降至70.73%。而添加Dropout后,神经网络的表现如下:
|迭代次数|测试误差|测试准确率|训练误差|训练准确率|
| ---- | ---- | ---- | ---- | ---- |
|I:0|0.641|0.6333|0.891|0.413|
|I:10|0.458|0.787|0.472|0.764|
|I:20|0.415|0.8133|0.430|0.809|
|…|…|…|…|…|
|I:290|0.399|0.8181|0.301|0.908|
从数据可以看出,使用Dropout后,网络的最高准确率达到了82.36%,并且过拟合现象得到了显著改善,最终测试准确率为81.81%。同时,Dropout会使训练准确率的提升速度变慢,之前训练准确率会直接达到100%并保持,现在则不会。这是因为Dropout本质上是一种噪声,它增加了网络在训练数据上的训练难度,就像跑步时腿上绑着沙袋,训练时更困难,但去掉沙袋后在正式比赛中会跑得更快。
2. 批量梯度下降
批量梯度下降是一种提高训练速度和收敛率的方法。之前我们每次训练一个样本,并在每个样本后更新权重。现在,我们每次训练100个样本,并对这100个样本的权重更新进行平均。训练和测试输出如下:
|迭代次数|测试误差|测试准确率|训练误差|训练准确率|
| ---- | ---- | ---- | ---- | ---- |
|I:0|
超级会员免费看
订阅专栏 解锁全文

9万+

被折叠的 条评论
为什么被折叠?



