continouns dropout论文笔记

本文探讨了一种改进的dropout方法——continounsdropout,通过使神经元丢弃概率服从连续分布,增强了模型的鲁棒性和预测精度。实验结果显示,在MNIST数据集上,Uniformdropout和Guassiandropout相比传统Bernoullidropout显著提升了全连接神经网络的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要观点:Dropout方法提出使隐藏层的神经元以50%的概率被丢弃,其输出为零且相应权值在本次迭代中不被训练,从而避免模型在数据集较小情况下的过拟合问题。对于训练一个n层的隐藏层,其潜在规模的神经元集合为2^n个。本文提出了continouns dropout的方法,神经元的丢弃概率不再服从Bernoulli的01分布,而是使其服从连续的概率分布,如Uniform或Guassian,更好地避免神经元之间的共适性,从而获得更高的鲁棒性和预测精度。

continouns dropout:因为dropout算法在0.5的丢弃率下能取得最好的效果,对于continouns dropout,我们分别假设神经元服从u ∼ U(0, 1)的Uniform dropout和服从g ∼ N (0.5, σ^2)的Guassian dropout,相当于使weights乘以(高斯)噪声,它们的期望输出均为原输出的50%。

1.对于continouns dropout的静态特性,文章证明了,Guassian dropout的网络的输出的方差和协方差是关于σ^2的函数,可以通过调整σ^2平衡方差与协方差的关系,其中高方差反映了神经元的差异性,有利于模型的泛化能力;低协方差反映了独立性,避免了神经元的共适性。同时continouns dropout在前向传播期间可以正则化复杂的权重和输入,增强模型鲁棒性。

2.对于continouns dropout的动态特性,文章证明,可以通过调节σ^2实现网络输出和模型复杂性之间的平衡,在非线性系统中能引入正则化项减轻权重、衰减变量和输入单位之间的协方差,避免共适性。

continouns dropout与SDR算法之间的差异:continouns dropout算法相当于对于隐藏层的输出单元,乘一个服从连续(高斯)分布的向量,从而实现连续意义上的dropout,而非单一“选择“或”舍弃“的dropout。SDR算法则假设weights本身就是服从高斯分布的,并且通过反向传播算法更新means和variances。

本文算法的简单验证:在MNIST数据集上验证此算法,搭建(784-800-800-10)的全连接神经网络,在隐藏层上分别添加Bernoulli dropout,Uniform dropout,Guassian dropout和不添加dropout来测试模型在测试集上的预测精度。实验结果如下:

上图为设置batch_size为100,迭代30K步后模型的accuracy曲线,可见Uniform dropout和Guassian dropout分别达到了98.01%和98.08%的预测精度,不添加dropout的网络达到了97.58%的预测精度,dropout网络达到92.40%的精度,可能在模型较为简单且训练集充足的情况下效果不及no dropout。从该实验可以看出在MNIST数据集上,全连接神经网络使用Uniform dropout和Guassian dropout的效果明显好于Bernoulli dropout和no dropout。

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值