DROPOUT AS DATA AUGMENTATION文章阅读

本文探讨了Dropout在神经网络中的角色,将其视为一种数据增强技术。通过将网络中的噪声映射回输入空间,生成训练数据的增强版本,研究发现这能改善模型泛化能力。实验在MNIST和CIFAR-10数据集上进行,对比了不同网络架构下Dropout的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章是从数据增强方面分析dropout,以下是一些内容截取。

Dropout as data augmentation. http://arxiv.org/abs/1506.08700

Dropout通常被解释为获取大量共享参数的模型。我们证明了在网络中使用dropout也可以理解为在没有领域知识的情况下对输入空间的一种数据扩充。我们提出了一种将网络中的噪声投影回输入空间的方法,从而生成训练数据的扩充版本,我们证明了在扩充样本上训练一个确定性网络会产生相似的结果。最后,根据观测结果提出了一种新的降噪方案,并对降噪结果进行了改进。

使用dropout的主要目的是使我们训练的神经网络规范化。该技术包括以一定概率随机丢弃神经元。人们认为,对网络结构的那些随机修改可以避免神经元的协同适应,从而使后续的两个神经元不可能完全相互依赖。对dropout最普遍的解释是,在测试时,Dropout 可以隐含地看作一种极端的bagging方式。

**在这项工作中,我们在数据扩充的背景下分析dropout。**考虑到分类的任务,给定一组训练样本,目标将是学习一个映射函数,它将每个输入映射到对应的输出标签。概括,映射函数不仅需要能够正确地映射训练样本,还需要能够正确地映射任何样本从数据分布中抽取的其他样本。这意味着它不仅必须映射输入空间子区域由训练样本表示,但所有子区域都是高概率的自然分布。学习这种映射函数的一种方法是增加训练数据,使其覆盖自然分布的更大部分。基于域的数据扩充有助于人为地增强训练数据覆盖,这使得训练更好的映射功能成为可能。我们假设基于噪声的正则化技术在增加训练数据覆盖方面也有类似的效果在每一个隐层,这项工作提出了多个实验观察,以支持我们的假设。

我们用完全连接的前向神经网络在MNIST上进行了一系列实验
CIFAR-10数据集比较dropout。每个网络由两个隐层组成,隐层由经过整流的线性单元和一个softmax层组成。我们尝试了三种不同的网络架构,每一种架构都有不同数量的隐藏层单元:2500-625、2500-1250和2500-2500。
每个网络都按照前一节中提到的方法进行培训和验证。

首先,我们通过训练具有固定隐含噪声水平的网络来评估失步噪声方案和输入噪音水平从0:0到0:7的变化,每个实验增加0:1。在第二个实验中,我们将输入噪声水平固定在0:2,并且改变了隐藏噪声水平从0:0到0:7,再增加0:1。在最后一组实验中,我们使用了随机变量在输入层和隐藏层使用相同的噪声水平的dropout噪声方案。噪音水平情况是一个范围,其中x从0:0变化到0:8,增量为0:1。
在不增加计算量的情况下,dropout改进了模型的性能成本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值