稀疏卷积神经网络加速器:Sparse - PE与Phantom的技术解析
1. Sparse - PE加速器的实现与结果
在低激活稀疏度的情况下,CSC格式在稀疏VGG16和Mobilenet中,其DRAM内存访问量分别约为稀疏掩码的4倍和3.7倍。在具有中高稀疏度的深层中,CSC格式的内存需求约为稀疏掩码的1.7倍。这表明稀疏二进制掩码格式不仅需要较少的编码/解码逻辑,而且在内存需求方面比CSC格式更高效,这直接为采用稀疏二进制掩码的加速器带来了更高的能源、面积和计算节省。
1.1 RTL实现
采用Xilinx Z - 7100 SoC来实现Sparse - PE核心设计。该SoC分为两部分:可编程逻辑(PL),包含FPGA结构;处理系统(PS),包含ARM内核。两者通过AXI片上通信子系统连接。将Sparse - PE核心实现在PL上,并使用PS在台式计算机和PL之间传输数据。测试设计针对Sparse - PE - 27配置实现,运行频率为200 MHz。
| 属性 | 可用资源 | 已使用资源 | 利用率(%) |
|---|---|---|---|
| LUTs | 277k | 3.4k | 1.23% |
| FFs | 554k | 6k | 1.1% |
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



