往期回顾
[1]. 面试之深度学习中的过拟合问题
[2]. 过拟合 (Overfitting)及其解决方法
欠拟合(梯度消失)
梯度消失: 根源在于激活函数,每次的求导,使得梯度的计算随着层数的增加而呈现指数级的递减趋势。离输出层越远,梯度减少的越明显。
而为了防止神经网络在训练过程中梯度消失的问题,一般采用合理的激活函数,如ReLU ,maxout来取代传统的sigmoid函数。
过拟合(梯度爆炸)
过拟合 一般指的是在模型选择的过程中,选择的模型参数过多,导致对训练数据的预测很好,但对未知数据的预测很差的现象。
在深度神经网络中,网络的层数更深,训练的样本往往更少的情况下,会使得过拟合现象更加严重。Dropout结合单模型和多模型的优点,能够很好地解决过拟合问题。
Dropout的思想 是每一层迭代的过程中,会随机让网络某些节点(神经元)不参与训练,同时把这些暂时丢弃的神经元的相关的所有边全部去掉,相应的权重不会在这一次迭代中更新,每次迭代训练都会重复这个操作。而丢掉的神经元只是暂时不更新,下一次迭代会重新参与随机化的Dropout。