UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS

直通估计器(STE)在激活量化神经网络的训练中起到关键作用,解决了传统反向传播中激活函数导数近似为零导致的训练难题。文章介绍了STE的基本原理,通过定义简单的网络结构和损失函数,展示了STE如何通过可求导的μ函数导数替代激活函数的导数,使得网络可以进行训练。作者还探讨了不同STE变体的收敛性和性能,并通过实验验证了STE在不同输入分布和激活函数类型(如vanilla ReLU和clipped ReLU)下的效果,证明了其优化网络的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

STE作为一种方法已经被提出很久了,也出现了很多它的变体。但它在本质上,是用了一个与当前函数无关的梯度来代替原有的梯度,为什么这个朝着这个替代品的梯度下降的方向优化网络有用?面对已经提出的许多STE的变体,我们应该如何选取?本文的主要内容就是解决以上两个问题。

首先,作者定义了一个简单的网络:
在这里插入图片描述
其中Z是一个取样自(0,1)高斯分布的输入数据,w和v是权重,σ是二元的的激活函数:
在这里插入图片描述
标签的定义如下:
在这里插入图片描述
损失函数的定义如下:
在这里插入图片描述
由于在这里插入图片描述
,作者这里使||w*||等于1.于是优化目标变为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值