Dropout原理，代码浅析

最新推荐文章于 2025-05-14 21:32:44 发布

whiteinblue

最新推荐文章于 2025-05-14 21:32:44 发布

阅读量1.6w

点赞数 1

CC 4.0 BY-SA版权

文章标签： dropout autoencoder 神经网络

本文链接：https://blog.youkuaiyun.com/whiteinblue/article/details/37808623

Dropout是一种防止神经网络过拟合的策略，通过在训练过程中随机忽略一部分神经元来减少特征检测器间的相互作用。在每个训练批次中，Dropout会按一定比例随机关闭隐层节点，而在测试阶段，所有节点都会参与，但其输出会被相应调整，以保持一致性。这种方法可以视为一种模型平均，通过训练大量不同的网络模型来提高泛化能力。代码实现中，Dropout涉及到在网络前向传播时对隐藏层节点的随机忽略，并在反向传播和权重更新时进行相应的调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Dropout原理介绍

一：引言

因为在机器学习的一些模型中，如果模型的参数太多，而训练样本又太少的话，这样训练出来的模型很容易产生过拟合现象。在训练bp网络时经常遇到的一个问题，过拟合指的是模型在训练数据上损失函数比较小，预测准确率较高（如果通过画图来表示的话，就是拟合曲线比较尖，不平滑，泛化能力不好），但是在测试数据上损失函数比较大，预测准确率较低。

常用的防治过拟合的方法是在模型的损失函数中，需要对模型的参数进行“惩罚”，这样的话这些参数就不会太大，而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。因此在添加权值惩罚项后，应用梯度下降算法迭代优化计算时，如果参数theta比较大，则此时的正则项数值也比较大，那么在下一次更新参数时，参数削减的也比较大。可以使拟合结果看起来更平滑，不至于过拟合。

Dropout是hintion最近2年提出的；为了防止模型过拟合，Dropout可以作为一种trikc供选择。在hinton的论文摘要中指出，在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

二 Dropout方法

训练阶段：

1.Dropout是在标准的bp网络的的结构上，使bp网的隐层激活值，以一定的比例v变为0，即按照一定比例v，随机地让一部分隐层节点失效；在后面benchmark实验测试时，部分实验让隐层节点失效的基础上，使输入数据也以一定比例（试验用20%）是部分输入数据失效（这个有点像denoising autoencoder），这样得到了更好的结果。

2.去掉权值惩罚项，取而代之的事，限制权值的范围，给每个权值设置一个上限范围；如果在训练跟新的过程中，权值超过了这个上限，则把权值设置为这个上限的值（这个上限值得设定作者并没有说设置多少最好，后面的试验中作者说这个上限设置为15时，最好；为啥？估计是交叉验证得出的实验结论）。