深度学习泛化方法解析
1. 集成方法
1.1 Dropout解决特征共适应问题
在神经网络中,特征之间可能存在不良的共适应现象。例如,若部分特征依赖于其他并非真正有用的特征,就可能影响模型性能。假设在每一层中,有50%节点的所有边固定为初始随机值,且在反向传播时不更新(尽管正常计算所有梯度),神经网络仍可能通过调整其他权重和特征来给出不错的结果。但这并非理想情况,因为特征协同工作的目标应是整合每个关键特征的能力,而非让部分特征去适应其他特征的不利影响。
在正常训练神经网络时,这种共适应也可能发生。比如,若神经网络某些部分的更新速度不够快,一些特征就会变得无用,而其他特征会去适应这些不太有用的特征。由于神经网络不同部分的学习速率往往不同,这种情况很容易出现。更糟糕的是,当共适应的特征在训练数据上表现良好,但在测试数据上却无法泛化时,就会出现过拟合问题。
Dropout通过强制神经网络仅使用部分输入和激活进行预测,来防止这种共适应。这使得网络能够在一定程度上实现冗余预测,同时鼓励较小的特征子集具备预测能力。也就是说,只有在真正对建模必要时才会发生共适应,而不是学习训练数据的随机细节。这实际上是一种正则化方法,并且通过学习冗余特征,Dropout对冗余特征的预测结果进行平均,类似于装袋法(bagging)。
1.2 数据扰动集成
目前讨论的集成技术大多是基于采样的集成或以模型为中心的集成。Dropout可被视为一种间接向数据添加噪声的集成方法。此外,还可以使用显式的数据扰动方法。
- 输入数据添加噪声 :在最简单的情况下,可以向输入数据添加少量噪声,然后在扰动后的数据上学
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



