Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation

JachinMa

于 2020-01-12 22:09:16 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/JachinMa/article/details/103949702

版权

本文探讨了如何在神经网络中利用随机扰动进行梯度估计，以实现更高效的训练和条件计算。通过引入随机扰动，可以在不平滑的非线性函数中估计梯度，例如dropout策略。文章还介绍了Noisy Rectifier，一种具有随机性的激活函数，允许在网络中进行条件计算，同时解决了传统二元输出导致的梯度问题。最后，提出了Straight-Through Estimator方法，通过硬阈值函数进行反向传播，解决二元神经元的梯度计算挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一般认为，为了计算梯度，网络的平滑性是必须的，但实际情况却并非如此。我们可以通过向硬性函数（如阈值函数）中加入扰动来观察效果，进而评估梯度。但是向如果加入的是独立的扰动，那么就会使得后向传播的花费变得非常之多，于是我们提出了随机扰动的想法。

不平滑、非线性的思想可以和随机扰动结合在一起来获得对梯度的低方差的估计，dropout就是一个这样的例子。

我们很想通过计算图计算出的信号来调整噪音的强度。但问题是，由于噪音是随机的，如果我们考虑到所有可能的情况再计算损失，进而计算梯度，那么计算的花费就会非常的大。为了解决这个问题，我们就提出了四种能够有效计算并高效训练的方法。这样我们就能利用条件计算的方法，在相同的计算消耗下，来训练潜能更大的网络。

研究随机网络的动机有：模拟生物神经元；获得稀疏表征(因为它们有很多零)，这是很多表征学习算法的正则化方法；二元表征还是语义哈希算的哈希表的key值；在变化时间尺度的rnn上，随机网络也很有用。

基于扰动的梯度估计器算法使用随机扰动z来计算损失：在这里插入图片描述

这比传统的分别测量每个参数的变化的的影响的有限差分近似方法要更高效，二者的梯度算法复杂度分别为n方和n。后者使用在这里插入图片描述
或更好的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。