1.神经元饱和
如果输出神经元是低激活或者高激活(激活在接近0或者1时),那么最后一层中的权重将学习得很慢,这种情况就是输出神经元饱和了,权重停止学习或者学习得很慢。
有篇文章讲的是不同的激活函数的饱和问题:https://blog.youkuaiyun.com/margretwg/article/details/67634977
2.交叉熵
熵是一种不确定性的一种度量,如果得到的结果和预期接近,那么不确定性就小,适合作为代价函数
sigmod输出——交叉熵代价函数
3.softmax柔性最大值
输出可看成是一种概率分布,这可以用在手写字符识别输出中。
softmax对应的是对数似然代价函数(e和log对应),中c=1对应标准的softmax函数
softmax输出——对数似然代价函数
4.抑制过拟合的方法
提前停止:跟踪测试数据集合上的准确率变化,当不再提升时(准确率饱和)就停止训练
hold out:从训练集中拿出一部分数据作为验证集,用来寻找好的超参数,防止对测试集的过拟合
增加训练样本:
L2规范化(权重衰减):更小的权重使单个输入对网络的影响有限
b的更新规则不变,w的更新有一个
的调整,这就是权重衰减的由来
5.数据三分
训练集training_data
验证集validation_data:衡量不同超参数(迭代期,学习率,网络架构)
测试集test_data
6.陷入局部最小值的解释
7.过拟合的解释
过于复杂的模型学习到了局部噪声的影响效果
8.简单与复杂
对模型真正的测试不是简单性,而是对新场景中新活动的预测能力,要基于实验事实
9.大偏置
大的偏置不会像大的w一样使神经元对输入太敏感,甚至大的偏置能让网络更加灵活,因为大的偏置更容易饱和,达到我们想要的结果