机器学习加速器文献整理

最新推荐文章于 2025-05-22 10:08:58 发布

苗小熊

最新推荐文章于 2025-05-22 10:08:58 发布

阅读量3.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： AI 加速器文章标签： AI 加速器 AI芯片

本文链接：https://blog.youkuaiyun.com/miao20091395/article/details/79303669

这篇博客整理了William J. Dally团队和寒武纪团队在AI加速器领域的研究成果，包括SCNN、EIE、DianNao和Cambricon-X等加速器。Dally团队提出了对神经网络硬件和算法的优化，包括剪枝、量化和稀疏编码。而寒武纪团队则设计了三级流水结构的加速器，支持多种神经网络结构，并在DianNao基础上增加了对稀疏神经网络的支持。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

William J Dally 团队
- 文献一SCNN An Accelerator for Compresse d-sparse Convolutional Neural Networks1
- 文献二EIE Efficient Inference Engine on Compressed Deep Neural Network2
寒武纪团队
- 文献一DianNao A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning3
- 文献二Cambricon-X An Accelerator for Sparse Neural Networks4
参考文献

William J. Dally 团队

Dally团队除了对神经网络处理器进行硬件优化，也提出了很多算法上的优化。包括

提出了一种训练方法，在训练过程中对神经网络进行剪枝，可以增加网络的稀疏性，（可以减少9x到13x的互联weight）。
对稀疏后的weight进行量化，这样数据就少了，可以使用LUT存储，在weight的量化过程中使用了K-means聚类算法。量化可以将weight的表示从32为降低为5位。
量化后的weight，以及其稀疏编码的index的分布是非均匀的，通过分析这种非均匀性，使用huffman这种压缩编码来进行存储，节省20-23%存储空间。
又提出在稀疏的时候，可以间隔着的稀疏，比如稀疏掉特定的一个滤波器，这样可以使稀疏后的数据更规整，利于加速。

文献一：SCNN: An Accelerator for Compresse d-sparse Convolutional Neural Networks1

作者：Angshuman Parashar，William J. Dally
摘要：

对卷积层进行优化
探索activation 和weight中的0来优化结构。在训练过程中通过将小于一定阈值的weight归零来增加weight矩阵的稀疏性。
将卷积运算分布到几个子PE中运算。
activation和weight都使用稀疏编码来计算。

结构及优化分析
本文提高，CNN网络的稀疏性表现在两个方面：weight的稀疏性和activation的稀疏性。Weight的稀疏性可以通过一些剪枝算法来实现，比如韩松等人提出的剪枝算法。Activation的稀疏性来自于ReLU运算。
Weight和activation中的0不会对结果产生影响。因此通过利用CNN的稀疏性可以得到以下两个好处：1、压缩数据，通过使用压缩编码消除数据中的0，可以减小需要存储的数据量；2、消除不必要的计算，当weight和activation中有0时，我们既可以关闭计算单元来节省能耗，也可以直接跳过该运算，这样既节省能耗又节约时间。CNN硬件设计就需要充分利用这两个好处。
这里写图片描述
一个典型的CNN卷积层运算的数据结构和算法如上图所示，为一个7层嵌套的循环，其核心运算为滤波中的乘累加。硬件设计就是要对该循环进行并行加速。
首先假设数据的非稀疏的，先根据卷积运算的7层循环的特点来优化结构。由于weight和activation都很大，要进行分块处理。对于卷积运算，有两种循环方式：固定activation，循环weight；固定weight，循环activation。该文使用的前者，因此首先对weight进行分组，将k个通道（channel）的weight按照每组Kc个通道来分组，weight分组后的计算单元变为：
这里写图片描述