Dropout是指在模型训练时随机让网络某些隐含层节点的权重暂时不工作,不工作的那些节点可以临时认为不是网络结构的一部分,但是它的权重得保留下来,暂时不更新,因为下一轮迭代 的时候它可能又得工作了。
Hinton等人在《Dropout: a simple way to prevent neural networks from overfitting》一文中提出在神经网络训练过程中,可以通过dropout神经元这个trick防止过拟合。
其关键思想是在神经网络的训练过程中随机丢弃单元(连同它们的连接点)。这能防止单元适应过度,显著减少过拟合,并相对于其它正则化方法有重大改进。
在这篇文章中,使用Dropout时训练阶段和测试阶段做了如下操作:
1、在样本的训练阶段,在没有采用pre-training的网络时,没有对权值采用L2范数惩罚,而是对每个隐含节点的权值L2范数设置一个上限bound,当训练过程中如果该节点不满足bound约束,则用该bound值对权值进行一个规范化操作(即同时除以该L2范数值),这样可以让权值更新初始的时候有个大的学习率供衰减,并且可以搜索更多的权值空间。
2、在模型的测试阶段,使用”mean network(均值网络)”来得到隐含层的输出,其实就是在网络前向传播到输出层前时隐含层节点的输出值都要减半(如果dropout的比例为50%)。
Hintion的直观解释和理由如下:
1、 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。
2、可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本,其对应的网络结构都是不同的,但所有的这些不同的网络结构又同时share隐含节点的权值。
3、native bayes是dropout的一个特例。Native bayes有个错误的前提,即假设各个特征之间相互独立,这样在训练样本比较少的情况下,单独对每个特征进行学习,测试时将所有的特征都相乘,且在实际应用时效果还不错。而Droput每次不是训练一个特征,而是一部分隐含层特征。
4、还有一个解释是,Dropout类似于性别在生物进化中的角色,物种为了使适应不断变化的环境,性别的出现有效的阻止了过拟合,即避免环境改变时物种可能面临的灭亡。