稀疏卷积神经网络加速器:Sparse - PE与Phantom核心的深入解析
1. Sparse - PE加速器的性能优势与实现细节
在卷积神经网络(CNN)的加速领域,Sparse - PE加速器展现出了显著的性能优势。在内存访问方面,CSC格式与稀疏掩码(sparse mask)的对比十分明显。在低激活稀疏度的情况下,对于稀疏的VGG16和MobileNet,CSC格式的DRAM内存访问量分别约为稀疏掩码的4倍和3.7倍。而在具有中高稀疏度的深层中,CSC格式的内存需求约为稀疏掩码的1.7倍。这表明稀疏二进制掩码格式不仅所需的编码/解码逻辑更少,而且在内存需求方面比CSC格式更高效,能直接为采用该格式的加速器节省能源、面积并提高计算效率。
1.1 RTL实现
Sparse - PE核心设计采用Xilinx Z - 7100 SoC进行实现。该SoC分为两部分:可编程逻辑(PL)包含FPGA结构,处理系统(PS)包含ARM核心,二者通过AXI片上通信子系统连接。Sparse - PE核心在PL上实现,PS用于在台式计算机和PL之间传输数据。测试设计针对Sparse - PE - 27配置实现,运行频率为200 MHz。
| 属性 | 可用资源 | 已使用资源 | 利用率(%) |
|---|---|---|---|
| LUTs | 277k | 3.4k | 1.23% |
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



