10、深度卷积神经网络加速器：iMAC与NeuroMAX的创新与实践

emacs5lisp

于 2025-08-28 11:45:17 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：卷积神经网络加速器探秘文章标签：深度卷积神经网络 CNN加速器 iMAC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/emacs5lisp/article/details/151605540

卷积神经网络加速器探秘专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度卷积神经网络加速器：iMAC与NeuroMAX的创新与实践

1. 卷积神经网络加速器概述

在神经网络加速器设计领域，对CNN权重和特征图的表示进行了深入研究，同时还对比了线性和对数量化的准确性。不同的研究者提出了各种加速器设计方案，但各有优劣。例如，Vogel等人提出了使用任意对数基的加速器设计，但未充分利用基于对数的处理单元（PE）的低硬件开销；Huan等人提出了适用于各种卷积核的可重构设计，但存在高延迟和低硬件利用率的问题；Jo等人提出了重新调度的卷积数据流以优化能源效率；Chang和Chang提出了向量式加速器架构VWA，旨在最大化硬件利用率。

工业界知名的密集CNN加速器之一是谷歌张量处理单元（TPU）。自2015年起，TPU就已部署在谷歌数据中心。TPUv1基于256×256 PE的脉动阵列，支持8位整数精度，但未包含稀疏矩阵乘法的架构支持，仅接受密集格式输入。目前，TPU已更新到TPUv4i，在bf16（大脑浮点）精度下，每芯片的峰值万亿浮点运算每秒（TFLOPS）提高了1.5倍。

2. iMAC：基于图像到列和通用矩阵乘法的密集CNN加速器

2.1 背景与动机

在资源受限的系统中，成本效率（即单位成本的性能）是关键指标。卷积神经网络（CNN）的推理任务常需在设备端（如物联网边缘）执行，这是由于与云的通信带宽有限以及安全/隐私问题。然而，物联网设备资源预算紧张，难以满足CNN的响应时间要求。在资源受限的物联网设备中进行CNN推理的主要挑战是在资源成本和响应时间之间找到最佳平衡点。

传统上，这类系统中的CNN推理通常由CPU执行，但CPU在处理数据并行工作负载（如矩阵乘法）时效率低下。即使使用单指令

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。