面向边缘计算的AI加速硬件

用于边缘计算中深度学习的低功耗AI硬件平台

摘要

本文实现了面向边缘计算应用的基于深度学习的图像识别加速器DV700的架构,并在FPGA环境中测量了其性能。结果表明,在79兆赫的工作频率下,该架构在GoogleNet算法中可达到12.9帧每秒,在SSD算法中可达到15.6帧每秒。

关键词

深度学习,FPGA,影响,图像识别,图形处理器

I. INTRODUCTION

随着近年来以深度学习为基础的人工智能技术的发展,在边缘/云计算领域已提出了多种硬件加速方法。特别是作为边缘计算的推理硬件加速方法,已提出基于图形处理器(如英伟达 Jetson TX 2 [1] ,)的方法、通过降低位宽(精度)实现电路规模缩小的深度学习网络实现方法,以及通过布置多个数字信号处理器(DSP)等处理器阵列来实现的方法。

本文介绍了由DMP实现的基于半精度浮点运算的边缘计算深度学习加速硬件DV700,该硬件主要面向图像识别应用。

II. DV700 概述

DV700 专为边缘计算中的推理处理加速硬件而设计,并将设计数据作为设计知识产权授权给客户。实际实现形式是对应于 FPGA、专用集成电路 等的软件宏,客户可使用标准的综合及布局布线流程进行实现。

DV700 包含一个卷积运算单元、一个池化处理单元、一个激活函数、一个全连接层运算单元、一个内部共享内存、一个总线接口,以及一个基于 RISC‐V指令集架构 的处理器,该处理器作为整个硬连线逻辑和算术单元的控制CPU。

作为一种软件堆栈,我们提供了将从常用的深度学习框架(如 Caffe、TensorFlow 和 Keras)导出的已训练网络转换为 DV700 的工具,并且用户希望使用的训练网络可由硬件读取,推理过程可通过 DV700 完成。

示意图0

在标准配置中,卷积单元实现了576个乘加运算单元和640 KB容量的内部共享内存。

作为一种深度学习网络,它支持与图像识别相关的主要网络,如GoogleNet、MobileNet、SqueezeNet、ResNet、SegNet、SSD和Yolo。此外,在切换网络时,只需更改RISC CPU上的控制程序即可完成切换,无需更改硬件本身。

III. DV700 样品实现

本文在赛灵思的评估板ZC706上实现了DV700核心并进行了评估。该板上使用的赛灵思 XC7Z045 是带有内置ARM CPU和350个逻辑单元的片上系统类型FPGA。内置ARM CPU用于结果显示输出和IP核的控制,而其他深度学习处理则由DV700 IP核完成。

IV. DV700 性能

在上一章所述环境下,对主要深度学习网络算法进行性能评估的结果如下表所示。

深度学习网络 处理 毫秒 @79兆赫 帧秒
VGG16 589.3 1.7fps
ResNet‐50 182.0 5.5帧/秒
GoogleNet 77.7 12.9帧/秒
SSD 64.1 15.6帧/秒

尽管FPGA的工作频率为79兆赫兹,但卷积等计算部分仍有提升频率的空间。

V. S MMAR

本文介绍了专用于加速深度学习推理处理的硬件架构 DV700的概要及其性能。未来,在自动驾驶等领域的边缘计算中,图像识别技术的重要性日益增加,实现更高效率和更高精度的功能至关重要。

未来,关于如何在应用/服务层面推进社会实施的讨论也变得重要起来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值