ICLR 2024 - Spike-driven Transformer V2 - Meta Spiking Neural Network Architecture Inspiring the Des

最新推荐文章于 2024-12-12 10:08:42 发布

有为少年

最新推荐文章于 2024-12-12 10:08:42 发布

阅读量1.6k

点赞数 12

分类专栏：深度学习 # 注意力机制文章标签： transformer 深度学习人工智能神经网络计算机视觉脉冲神经网络高性能计算

本文链接：https://blog.youkuaiyun.com/P_LarT/article/details/141265409

版权

Spike-driven Transformer V2: Meta Spiking Neural Network Architecture Inspiring the Design of Next-generation Neuromorphic Chips

V1 版本：Spike-driven transformer，NeurIPS 2023
论文：https://arxiv.org/abs/2404.03663
代码：https://github.com/BICLab/Spike-Driven-Transformer-V2

神经形态计算（neuromorphic computing），这利用神经形态芯片上脉冲神经网络（Spiking Neural Network，SNN），是传统人工智能的一种有前景的节能替代方案。基于卷积神经网络（CNN）的 SNNs 是当前神经形态计算的主流。相比之下，目前还没有专门为基于 Transformer 的 SNNs 设计的神经形态芯片，这些 SNNs 刚刚出现，它们的表现仅与基于 CNN 的 SNNs 相当，没有明显优势。

这项工作提出了一种通用的基于 Transformer 的 SNN 架构，称为“Meta-SpikeFormer”，其目标是：

低功耗，支持脉冲驱动范式，网络中只有稀疏的加法运算；
多功能性，处理各种视觉任务；
高性能，显示出对基于 CNN 的 SNNs 的压倒性性能优势；
元架构，为未来下一代基于 Transformer 的神经形态芯片设计提供灵感。

具体来说，本文将 NeurIPS 2023 发表的第一版工作中的脉冲驱动 Transformer 扩展为元架构，并探索了结构、脉冲驱动自注意力和跳跃连接对其性能的影响。在 ImageNet-1K 上，Meta-SpikeFormer 实现了 80.0% 的 top-1 准确率（5500 万参数），超过了当前最先进的（SOTA）SNN 基线（6600 万参数）3.7%。这是第一个可以直接训练的 SNN 骨干网络，能够同时支持分类、检测和分割，获得 SNNs 中的 SOTA 结果。

引言

SNNs 是为了成为传统机器智能的低功耗替代品。独特的脉冲驱动是实现这一宏伟概念的关键，即在神经形态芯片上运行 SNNs 时，只有部分脉冲神经元被激活，以执行稀疏的突触累积（synaptic accumulate，AC）操作。神经形态计算本质上是一种“算法—硬件共同设计”的范式（Bottom-up and top-down approaches for the design of neuromorphic processing systems: Tradeoffs and synergies between natural and artificial intelligence）。生物神经元被建模为脉冲神经元，并在算法层面上以某种方式形成 SNNs。然后，神经形态芯片在硬件层面上配备了脉冲驱动的 SNNs。基于 CNN 的 SNNs 目前是常见的脉冲驱动设计。因此，典型的神经形态芯片，如 TrueNorth、Loihi、Tianjic 等，都支持脉冲驱动的卷积和多层感知器（MLP）操作。几乎所有 CNN 时代的架构，例如 VGG、ResNet 等，都可以开发成相应的 SNN 版本。由于 ANN 中的 Transformer 在各种任务中显示出巨大潜力，在过去两年中，一些基于 Transformer 的设计在 SNNs 中出现。大多数基于 Transformer 的 SNNs 未能利用 SNNs 的低功耗优势，因为它们不是脉冲驱动的。通常，它们保留了由普通 Transformer 主导的能耗高的乘 - 累积（MAC）操作，如缩放点积（Complex dynamic neurons improved spiking transformer network for efficient automatic speech recognition）、softmax（Online transformers with spiking neurons for fast prosthetic hand control）、scale（Spikformer: When spiking neural network meets transformer）等。

本作的第一代中开发了一种脉冲驱动的自注意力操作器，首次将脉冲驱动集成到 Transformer 中。然而，尽管这种脉冲驱动 Transformer 仅通过稀疏 AC 在 ImageNet-1K 上实现了 SOTA 结果，但它尚未显示出对基于卷积的 SNNs 的明显优势。这一版本中，提出的 Meta-SpikeFormer 则在性能和多功能性方面推进了 SNN 领域。由于 Vision Transformer（ViT）显示出出 Transformer 在视觉方面可以表现出色，已经产生了许多研究。最近 MetaFormer 中总结了各种 ViT 变体，并认为通过不指定 token 混合器（自注意力）从 ViTs 中抽象出通用架构。受这项工作的启发，本文研究了 Transformer-based SNNs 的元架构设计，涉及三个方面：网络结构、跳跃连接（skip connection，shortcut）、带有完全 AC 操作的脉冲驱动自注意力（SDSA）。