用于边缘计算中深度学习的低功耗AI硬件平台
摘要
本文实现了面向边缘计算应用的基于深度学习的图像识别加速器DV700的架构,并在FPGA环境中测量了其性能。结果表明,在79兆赫的工作频率下,该架构在GoogleNet算法中可达到12.9帧每秒,在SSD算法中可达到15.6帧每秒。
关键词
深度学习,FPGA,影响,图像识别,图形处理器
I. INTRODUCTION
随着近年来以深度学习为基础的人工智能技术的发展,在边缘/云计算领域已提出了多种硬件加速方法。特别是作为边缘计算的推理硬件加速方法,已提出基于图形处理器(如英伟达 Jetson TX 2 [1] ,)的方法、通过降低位宽(精度)实现电路规模缩小的深度学习网络实现方法,以及通过布置多个数字信号处理器(DSP)等处理器阵列来实现的方法。
本文介绍了由DMP实现的基于半精度浮点运算的边缘计算深度学习加速硬件DV700,该硬件主要面向图像识别应用。
II. DV700 概述
DV700 专为边缘计算中的推理处理加速硬件而设计,并将设计数据作为设计知识产权授权给客户。实际实现形式是对应于 FPGA、专用集成电路 等的软件宏,客户可使用标准的综合及布局布线流程进行实现。
DV700 包含一个卷积运算单元、一个池化处理单元、一个激活函数、一个全连接层运算单元、一个内部共享内存、一个总线接口,以及一个基于 RISC‐V指令集架构 的处理器,该处理器作为整个硬连线逻辑和算术单元的控制CPU。
作为一种软件堆栈,我们提供了将从常用的深度学习框架(如 Caffe、TensorFlow 和 Keras)导出的已训练网络转换为 DV700 的工具,并且用户希望使用的训练网络可由硬件读取,推理过程可通过 DV700 完成。
在标准配置中,卷积单元实现了576个乘加运算单元和640 KB容量的内部共享内存。
作为一种深度学习网络,它支持与图像识别相关的主要网络,如GoogleNet、MobileNet、SqueezeNet、ResNet、SegNet、SSD和Yolo。此外,在切换网络时,只需更改RISC CPU上的控制程序即可完成切换,无需更改硬件本身。
III. DV700 样品实现
本文在赛灵思的评估板ZC706上实现了DV700核心并进行了评估。该板上使用的赛灵思 XC7Z045 是带有内置ARM CPU和350个逻辑单元的片上系统类型FPGA。内置ARM CPU用于结果显示输出和IP核的控制,而其他深度学习处理则由DV700 IP核完成。
IV. DV700 性能
在上一章所述环境下,对主要深度学习网络算法进行性能评估的结果如下表所示。
| 深度学习网络 | 处理 毫秒 @79兆赫 | 帧秒 |
|---|---|---|
| VGG16 | 589.3 | 1.7fps |
| ResNet‐50 | 182.0 | 5.5帧/秒 |
| GoogleNet | 77.7 | 12.9帧/秒 |
| SSD | 64.1 | 15.6帧/秒 |
尽管FPGA的工作频率为79兆赫兹,但卷积等计算部分仍有提升频率的空间。
V. S MMAR
本文介绍了专用于加速深度学习推理处理的硬件架构 DV700的概要及其性能。未来,在自动驾驶等领域的边缘计算中,图像识别技术的重要性日益增加,实现更高效率和更高精度的功能至关重要。
未来,关于如何在应用/服务层面推进社会实施的讨论也变得重要起来。
3637

被折叠的 条评论
为什么被折叠?



