AdderNet加法网络

本文介绍了一种名为AdderNet的新型神经网络,该网络用加法运算替代传统卷积神经网络(CNN)中的卷积计算,显著降低了计算成本和能耗。AdderNet通过采用l1范数距离度量代替卷积操作,实现了这一目标。实验结果显示,在CIFAR10和CIFAR100数据集上,AdderNet能够达到与ResNet20相当的精度,尽管存在一定的精度差距,但其在计算效率方面的优势不容忽视。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:https://arxiv.org/abs/1912.13200v2

Abstract

作者用加法代替神经网络中的卷积计算,将传统的CNN转变成AdderNet,大大减少了计算成本、能耗等。具体的做法就是把卷积看作是距离度量的方式,用 l 1 l_1 l1范数来代替卷积。

Adder Networks

普通的卷积滤波器:
在这里插入图片描述
加法网络滤波器(利用 l 1 l_1 l1距离):
在这里插入图片描述
但是卷积滤波器输出可正可负,而加法滤波器恒为负数,因此需要通过batch normalization将输出归一化到合适的范围。

Optimization

反向传播进行梯度计算时,CNN的输出对滤波器的偏导为:
在这里插入图片描述
而加法网络:
在这里插入图片描述
由于signSGD的优化方法几乎不会选择最陡的下降方向,而且随着维数增加效果更差,所以建议使用 l 2 l_2 l2范数的导数来更新:
在这里插入图片描述
反向传播使用的是全精度的梯度,梯度的绝对值可能会大于1,这样会产生梯度爆炸,所以将梯度截断在[-1,1]。
输入特征的梯度为:
在这里插入图片描述
其中,HT是HardTanh函数:
在这里插入图片描述

Experiment

在cifar10和cifar100上的实验结果:
在这里插入图片描述
实验复现:
在cifar10上,resnet20的精度为92.46%,addernet精度为91.31%,其中addernet的精度和论文存在0.5%的差距。而且由于使用加法滤波器,cuda无法加速,训练的时间极其漫长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值