dropout函数详解及反向传播中的梯度求导

最新推荐文章于 2024-03-18 15:57:09 发布

原创

最新推荐文章于 2024-03-18 15:57:09 发布 · 1.7w 阅读

·

35

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

摘要

本文给出 dropout 函数的定义, 并求解其在反向传播中的梯度

相关

配套代码, 请参考文章 :

Python和PyTorch对比实现dropout函数及反向传播

系列文章索引 :
https://blog.youkuaiyun.com/oBrightLamp/article/details/85067981

正文

1. dropout 的概念

深度神经网络结构的过拟合是指 : 在训练集上的正确率很高, 但在测试集上的准确率很低.
为了缓解网络过拟合的问题, 其中一种常见的办法是使用 dropout 函数.

dropout 是指在深度网络的训练中, 以一定的概率随机地 “临时丢弃” 一部分神经元节点. 具体来讲, dropout 作用于每份小批量训练数据, 由于其随机丢弃部分神经元的机制, 相当于每次迭代都在训练不同结构的神经网络.

– 摘抄自 <百面机器学习>

dropout 前网络结构示意 :
在这里插入图片描述
图片来源 : https://www.jianshu.com/p/2c6978b4bf74

dropout 后网络结构示意 :
在这里插入图片描述
图片来源 : https://www.jianshu.com/p/2c6978b4bf74

2. dropout 的作用

dropout 最直接的作用就是可以提升模型的泛化能力, 提高模型的健壮性, 提高通用性.

如何理解 ?

假设某公司存在一个职能稳定, 合理分工团队.

因为某些不可避免的原因, 该团队的成员每天都有 50% 概率不能参与工作.

为了完成任务, 需要其他同事加班完成缺席员工任务.

一段时间后, 该团队的成员普遍学会了其他同事的相关工作技能.

于是, 该团队拥有了更好的泛化能力.

3. 训练过程中的 dropout

为了定义 dropout, 我们需要一个随机数生成函数 rand(), 每一次调用都会重新生成一个0~1之间的小数 :
$0\leqslant rand() < 1 \;\\$

假设每一次 dropout 都以 p 的概率随机丢弃一个节点 :
$0\leqslant p < 1$

则 dropout 函数的定义为 :
$rand()\\ \;\\ dropout(x) = \left\{ \begin{array}{rr} 0, & r < p\\ x / (1 - p), & r \geqslant p \end{array} \right.$

将通过的信号被放大 $1 / (1 - p)$ 倍, 保证总体信号强度不变 (加班).

dropout函数是逐个元素处理的, 并不需要写成向量的形式.
但为了方便编程实现, 这里将其进行改编成向量的形式.

考虑一个输入向量 x, 同时定义一个随机掩码函数和一个随机掩码向量 m :
$(x_1,x_2,x_3,\cdots,x_k)\\ \;\\ r_i = rand()\\ \;\\ randomMask(x_i) = \left\{ \begin{array}{rr} 0, & r_i < p\\ 1/ (1 - p), & r_i \geqslant p \end{array} \right.\\ \;\\ m_i = randomMask(x_i)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。