Optimal ANN-SNN Conversion for High-accuracy and Ultra-low-latency Spiking Neural Networks 阅读总结

原创

已于 2023-01-19 10:15:24 修改 · 1.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2023-01-17 14:41:08 首次发布

本文分析了ANN到SNN转换中的误差类型，包括截断、量化和不均匀误差，并提出了使用clip-floor-shift激活函数以减少转换误差，达到高精度和低延迟的SNN。实验表明，这种方法在CIFAR-10、CIFAR-100和ImageNet数据集上表现优秀，能在较短的时间步长下实现与原始ANN相当的准确率。

Optimal ANN-SNN Conversion for High-accuracy and Ultra-low-latency Spiking Neural Networks 阅读总结

运行结果演示
Abstract
1.Introduction
2.Preliminaries
3.Conversion error analysis
4.Optimal ANN-SNN conversion
5.Related work
6.Experiments
7.Discussion and conclusion

运行结果演示

我将该论文发布于此处的代码进行了阅读与运行，得到结果如下：
训练过程（以CIFAR-10为例子使用VGG16模型进行训练）
在这里插入图片描述

结果测试：

可以看到，随着T的增加，SNN的准确度越来越接近ANN的准确度，但是运行时间也随之增加，尽管如此，已经可以在较短的时间步长内达到十分优秀的准确率。

Abstract

为了解决传统的ANN-SNN转换中存在的时间步长过长会影响推理时间，而过短会导致性能倒退的问题，这篇论文从理论上分析了ANN-SNN转换中的误差，并提出了clip-floor-shift 激活函数用于ANN的训练，使得ANN-SNN的期望转换误差为0，从而得到高精度低延迟的脉冲神经网络。（是第一次高精度低延迟ANN-SNN转换的探索）

1.Introduction

目前ANN-SNN转换得到的SNN在大规模数据集上性能已经可以和ANN相当，相比于原始的ANN,转换得到的SNN速度快，功耗低更加实用。
在转换过程中SNN的时间步长T取得越大，得到的结果就越接近原始的ANN，然而这会导致巨大的运算量，从而阻碍SNN的实际应用。若是SNN的时间步长T取得过小，会使得产生的剩余势能 $\frac{V^l(t)-V^l(0)}{T}$ 无法忽视，影响模型的精度。

创新之处：目前现有的文章都需要几十到几百的时间步长,而这篇论文中的方案将其缩短到了更少的时间步长（eg.4个时间步长）。
主要贡献：

将误差分为clipping error、quantization error、unevenness error
提出了用clip-floor-shift激活函数代替ANN中的Relu激活函数
在CIRAR-10,CIFAR-100以及ImageNet数据集上进行了测试，所提出的方法在更小的步长上超过了目前最先进的精度。

2.Preliminaries

2.1 ANN中的神经元模型：

$\bm \alpha^l=h(\bm W^l\bm \alpha^{l-1})$
其中 $\alpha^l$ 为第 $l$ 层的输出， $W^l$ 是 $l$ 和 $l - 1$ 层之间的权重矩阵， $h$ 是Relu激活函数

2.2 SNN中的神经元模型：

由Integrate-and-Fire（IF）模型：
$\bm m^l(t)=\bm v^l(t-1)+\bm W^l\bm x^{l-1}(t)$ $\bm s^l(t)=H(\bm m^l(t)-\bm \theta^l)$ $\bm v^l(t)=\bm m^l(t)-\bm s^l(t)\theta^l$ $\bm x^l(t)=\bm s^l(t)\theta^l$
其中 $m^l(t)$ 为t时刻脉冲产生前的电位， $v^l(t)$ 为t时刻脉冲产生后的电位， $\bm \theta^l$ 是点火阈值 $\theta^l$ 的向量，H(*)是阶跃函数， $\bm x^{l-1}(t)$ 是l-1层向l层的输入

2.3 ANN-SNN转换

由2.2节四个式子推导得到
$\bm v^l(t)-\bm v^l(t-1)=\bm W^l\bm x^{l-1}(t)-\bm s^l(t)\theta^l$
同除时间步长T（time step），并累加0-T时间得到：
$\frac{\bm v^l(T)-\bm v^l(0)}T=\frac{\bm W^l\sum_{i=1}^T\bm x^{l-1}(t)}T-\frac{\sum_{i=1}^T\bm s^l(i)\theta^l}T$
令 $\phi^{l-1}(T)=\frac{\sum_{i=1}^T\bm x^{l-1}(t)}T$
有：
$\phi^l(T)=\bm W^l\phi^{l-1}(T)-\frac{\bm v^l(T)-\bm v^l(0)}T$
当令T足够大时该等式就几乎等同于2.1节中ANN的等式，即此时的SNN公式和ANN公式几乎相等，此时可以进行ANN-SNN的转化。
由于需要较大的T的限制条件，而较大的T会导致运算时间的增加，于是便产生了需要优化的问题：该如何减少T带来的影响。

3.Conversion error analysis

假设ANN和SNN中T时刻来自l-1层的输入相同，即 $\bm \alpha^{l-1}=\phi^{l-1}(T)$
令 $\bm z^l=\bm W^l\phi^{l-1}(T)=\bm W^l\bm\alpha^{l-1}$

最低0.47元/天解锁文章

7 条评论

weixin_53698681 2024.12.04
请教一下博主，为啥v∈[0,θ]的时候，不均匀误差为什么会退化为量化误差

weixin_44161478 2024.11.19
博主您好，我和其他两位也有相同的困惑：即式子$x^l(t)=s^l(t)*\theta$是怎么来的，Gu的那篇文章说的是对突触后电位的期望就是$s^l(t)*\theta$，但是也没给推导过程。我目前的认知是，这个式子虽然不是标准的SNN，但是它仍然可以实现低功耗，且效果更好，所以我接受它[face]emoji:010.png[/face][face]emoji:010.png[/face]
- for-nothing回复weixin_44161478 2024.11.21
  可以理解成，在转换里面，要模拟relu函数，所以输入和输出要一样。重置减少一个theta，发生脉冲也是一个theta。

南风烟絮 2023.07.21
很多论文里的神经元，权值只和前一层的脉冲输出相乘，也就是Ws，没有theta这一项
- for-nothing回复南风烟絮 2023.07.21
  本质是一样的呀，都是01脉冲乘上一个常数，只不过这个常数是写成一个整体还是写成一个阈值乘上另一个常数罢了

南风烟絮 2023.07.21
2.2节中，神经元模型，权值W为什么与阈值电压和脉冲相乘？如果突触前神经元没有脉冲，该项即使0，如果突触前神经元产生脉冲，就是权值和阈值电压相乘？
- for-nothing回复南风烟絮 2023.07.21
  至于为什么相乘，就和人工神经网络一样，每个神经元肯定对输入是有权重的，比如在生物模型中有抑制有兴奋还有距离的影响等等。你后面写的理解我觉得没问题