1-通过迭加计算训练集上的error来判断是否high bias,利用验证集上的error判断是否high variance;
2-测试阶段不用Dropout层;Dropout层是用于预防overfitting的正则化方法;
代价函数J对于Dropout层未明确定义,为检查梯度是否一直下降,需关闭Dropout层或将参数设为1;
3-gradient check只用于debug,不与Dropout同时使用;
4-mini-batch gradient descent适合样本数2000以上的数据集;
batch size 一般在64-512之间,最好为2的次方(运行速度更快);使用mini-batch后画出的loss曲线会有小波动,并不是一直在严格下降;
5-Gradient Descent with Momentum 比纯梯度下降效果更好,beta通常取0.9;
6-RMSprop=Root Mean Square Prop, hyperparametres := alpha, beta1, epsilon;
hyperparametres := alpha, beta1=0.9, beta2=0.999, epsilon=10e-8;
8-超参数重要性:
学习速率alpha > momentum(0.9), #hidden units, mini-batch size > #layers, learning rate decay > Adam(beta1=0.9, beta2=0.999, epsilon=10e-8);
10-学习速率按对数坐标系均匀取值:0.0001, 0.001, 0.01,...;
11-指数平均值beta按(1-beta)对数轴均匀取值:0.9, 0.99, 0.999,...;
12-超参数训练实践:一次训练一个模型并加以优化-vs-同时训练好几个模型并比较优劣;
13-Batch Normalization: 在应用激活函数前对隐藏层输出进行归一化操作,以加速训练。