28、深度学习泛化方法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/tree/article/details/154629915

深度学习泛化方法解析

1. 集成方法

1.1 Dropout解决特征共适应问题

在神经网络中，特征之间可能存在不良的共适应现象。例如，若部分特征依赖于其他并非真正有用的特征，就可能影响模型性能。假设在每一层中，有50%节点的所有边固定为初始随机值，且在反向传播时不更新（尽管正常计算所有梯度），神经网络仍可能通过调整其他权重和特征来给出不错的结果。但这并非理想情况，因为特征协同工作的目标应是整合每个关键特征的能力，而非让部分特征去适应其他特征的不利影响。

在正常训练神经网络时，这种共适应也可能发生。比如，若神经网络某些部分的更新速度不够快，一些特征就会变得无用，而其他特征会去适应这些不太有用的特征。由于神经网络不同部分的学习速率往往不同，这种情况很容易出现。更糟糕的是，当共适应的特征在训练数据上表现良好，但在测试数据上却无法泛化时，就会出现过拟合问题。

Dropout通过强制神经网络仅使用部分输入和激活进行预测，来防止这种共适应。这使得网络能够在一定程度上实现冗余预测，同时鼓励较小的特征子集具备预测能力。也就是说，只有在真正对建模必要时才会发生共适应，而不是学习训练数据的随机细节。这实际上是一种正则化方法，并且通过学习冗余特征，Dropout对冗余特征的预测结果进行平均，类似于装袋法（bagging）。