STE作为一种方法已经被提出很久了,也出现了很多它的变体。但它在本质上,是用了一个与当前函数无关的梯度来代替原有的梯度,为什么这个朝着这个替代品的梯度下降的方向优化网络有用?面对已经提出的许多STE的变体,我们应该如何选取?本文的主要内容就是解决以上两个问题。
首先,作者定义了一个简单的网络:
其中Z是一个取样自(0,1)高斯分布的输入数据,w和v是权重,σ是二元的的激活函数:
标签的定义如下:
损失函数的定义如下:
由于
,作者这里使||w*||等于1.于是优化目标变为: