大规模并行神经处理阵列(MPNA):嵌入式系统的CNN加速器
1. 引言
机器学习(ML)算法在各个领域迅速普及,从目标识别、汽车、医疗保健到商业。近年来,深度神经网络(DNNs)或深度学习成为最具影响力的ML算法,特别是卷积神经网络(CNNs),实现了最先进的准确率,甚至超越了人类的准确率。然而,大型CNN模型通常需要巨大的内存占用、密集的计算和高能耗。同时,许多ML应用正朝着移动和嵌入式平台发展,但这些平台资源和功率/能量受限,因此需要设计专门的硬件加速器来高效执行CNN推理。
2. 现状与局限性
目前已经有大量关于CNN加速器的研究。一些加速器旨在通过利用稀疏权重和/或激活来加速非结构化稀疏网络,以减少计算需求,但利用稀疏性并不直接带来节能,且需要更复杂的设计,导致高功率/能量和面积消耗。此外,这些加速器通常使用ReLU激活函数,无法有效处理非高稀疏性的高级激活函数。另一些加速器旨在加速密集网络以实现高性能和能源效率,但同样使用ReLU操作,在计算高级激活函数时效率低下,且大多消耗较大面积和高功率/能量,不适合嵌入式应用。而且,许多加速器在全连接(FC)层的加速能力有限。
3. 动机案例研究与研究挑战
- 动机案例研究 :为了实现高性能和能源效率,现有的CNN加速器利用权重和激活(包括部分和)的重用,减少了片外内存(DRAM)访问。传统的脉动阵列(SA)设计在卷积(CONV)层的计算中非常有效,因为它涉及权重和激活的重用。然而,在FC层,只有激活重用,权重仅使用一次,SA引擎的加速效果非常有限,这显著限制了CNN加速的整体速度提升。
- 研究
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



