稀疏卷积神经网络加速器Sparse - PE的原理与性能分析
1. Sparse - PE核心处理流程
Sparse - PE是一种用于加速卷积神经网络(CNN)推理过程的稀疏卷积加速器。其核心处理流程包含多个关键环节,如计算、累加和输出编码等。
1.1 计算环节
在计算过程中,Sparse - PE核心通过计算稀疏输入数据和稀疏权重数据的子部分之间的点积,来产生输出数据的子部分。在大多数处理周期中,它能进行更多的乘法操作,相比传统设计,硬件利用率可提高50%,进而使吞吐量也提高50%。而且,当输入稀疏矩阵更大时,硬件利用率会进一步提升。
1.2 累加环节
累加(AM)模块负责缓冲和累加来自计算模块(CM)的部分点积输出,以生成最终输出结果。AM模块由一系列FIFO(fifo1 - fifo9)组成,这些FIFO连接在3个L1加法器电路的输出端,其输出再提供给L2加法器,用于对特定卷积块的点积进行累加。
累加过程分两个阶段进行,以相同颜色编码的FIFO组合(fifo1 + fifo4 + fifo7)、(fifo2 + fifo5 + fifo8)和(fifo3 + fifo6 + fifo9)为单位。输出根据每个累加阶段的标签值,分为有效输出和部分输出。若所有输入的标签值都为1,则输出为有效输出;否则,为部分输出。
以下是累加阶段的示例表格:
| Cycle # | FIFO组合 | Input1/tag | Input2/tag | Input3/tag | 输出 | 阶段 |
| ---- | ---- | ---- | ---- | ---- | ---- | --
超级会员免费看
订阅专栏 解锁全文
8242

被折叠的 条评论
为什么被折叠?



