卷积神经网络加速器:iMAC与NeuroMAX解析
- 常见密集CNN加速器概述
密集CNN加速器在人工智能领域发挥着重要作用。一些研究提出了不同的加速器设计方案。例如,Vogel等人提出使用任意对数基数的加速器设计,但未充分利用基于对数的处理单元(PE)的低硬件开销,而是依赖线性PE排列;Huan等人提出了适用于各种卷积核的可重构设计,但存在高延迟和低硬件利用率的问题;Jo等人提出了用于卷积的重新调度数据流以优化能源效率;Chang和Chang提出了向量式加速器架构VWA,旨在最大化硬件利用率,支持从1×1到5×5的各种内核大小。
工业界知名的密集CNN加速器如Google张量处理单元(TPU),自2015年起在Google数据中心部署。TPUv1基于256×256 PE的脉动阵列,支持8位整数精度,但未包含稀疏矩阵乘法的架构支持,仅接受密集格式输入。目前TPU已更新到TPUv4i,在bf16(脑浮点)精度支持下,每芯片的峰值tera浮点运算每秒(TFLOPS)提高了1.5倍。
- iMAC:基于图像到列和通用矩阵乘法的密集CNN加速器
- 背景与动机
在资源受限的系统中,成本效率(即单位成本的性能)是关键指标。卷积神经网络(CNN)的推理任务常需在设备端(如物联网边缘)执行,这是由于与云的通信带宽有限以及安全/隐私问题。然而,物联网设备资源预算紧张,难以满足CNN的响应时间要求。
- 背景与动机
传统上,CNN推理通常由CPU执行,但CPU在
超级会员免费看
订阅专栏 解锁全文
6777

被折叠的 条评论
为什么被折叠?



