深度卷积神经网络加速器:iMAC与NeuroMAX的创新与实践
1. 卷积神经网络加速器概述
在神经网络加速器设计领域,对CNN权重和特征图的表示进行了深入研究,同时还对比了线性和对数量化的准确性。不同的研究者提出了各种加速器设计方案,但各有优劣。例如,Vogel等人提出了使用任意对数基的加速器设计,但未充分利用基于对数的处理单元(PE)的低硬件开销;Huan等人提出了适用于各种卷积核的可重构设计,但存在高延迟和低硬件利用率的问题;Jo等人提出了重新调度的卷积数据流以优化能源效率;Chang和Chang提出了向量式加速器架构VWA,旨在最大化硬件利用率。
工业界知名的密集CNN加速器之一是谷歌张量处理单元(TPU)。自2015年起,TPU就已部署在谷歌数据中心。TPUv1基于256×256 PE的脉动阵列,支持8位整数精度,但未包含稀疏矩阵乘法的架构支持,仅接受密集格式输入。目前,TPU已更新到TPUv4i,在bf16(大脑浮点)精度下,每芯片的峰值万亿浮点运算每秒(TFLOPS)提高了1.5倍。
2. iMAC:基于图像到列和通用矩阵乘法的密集CNN加速器
2.1 背景与动机
在资源受限的系统中,成本效率(即单位成本的性能)是关键指标。卷积神经网络(CNN)的推理任务常需在设备端(如物联网边缘)执行,这是由于与云的通信带宽有限以及安全/隐私问题。然而,物联网设备资源预算紧张,难以满足CNN的响应时间要求。在资源受限的物联网设备中进行CNN推理的主要挑战是在资源成本和响应时间之间找到最佳平衡点。
传统上,这类系统中的CNN推理通常由CPU执行,但CPU在处理数据并行工作负载(如矩阵乘法)时效率低下。即使使用单指令
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



