AdderNet加法网络

最新推荐文章于 2024-09-25 08:48:24 发布

gcf_uinque

最新推荐文章于 2024-09-25 08:48:24 发布

阅读量768

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gcf_uinque/article/details/107129785

本文介绍了一种名为AdderNet的新型神经网络，该网络用加法运算替代传统卷积神经网络(CNN)中的卷积计算，显著降低了计算成本和能耗。AdderNet通过采用l1范数距离度量代替卷积操作，实现了这一目标。实验结果显示，在CIFAR10和CIFAR100数据集上，AdderNet能够达到与ResNet20相当的精度，尽管存在一定的精度差距，但其在计算效率方面的优势不容忽视。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/1912.13200v2

Abstract

作者用加法代替神经网络中的卷积计算，将传统的CNN转变成AdderNet，大大减少了计算成本、能耗等。具体的做法就是把卷积看作是距离度量的方式，用 $l_1$ 范数来代替卷积。

Adder Networks

普通的卷积滤波器：
在这里插入图片描述
加法网络滤波器(利用 $l_1$ 距离)：

但是卷积滤波器输出可正可负，而加法滤波器恒为负数，因此需要通过batch normalization将输出归一化到合适的范围。

Optimization

反向传播进行梯度计算时，CNN的输出对滤波器的偏导为：
在这里插入图片描述
而加法网络：

由于signSGD的优化方法几乎不会选择最陡的下降方向，而且随着维数增加效果更差，所以建议使用 $l_2$ 范数的导数来更新：

反向传播使用的是全精度的梯度，梯度的绝对值可能会大于1，这样会产生梯度爆炸，所以将梯度截断在[-1,1]。
输入特征的梯度为：
在这里插入图片描述
其中，HT是HardTanh函数：