面向边缘计算的AI加速硬件

最新推荐文章于 2025-12-02 20:45:02 发布

原创最新推荐文章于 2025-12-02 20:45:02 发布 · 959 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #FPGA #图像识别 #DV700 #推理加速

用于边缘计算中深度学习的低功耗AI硬件平台

摘要

本文实现了面向边缘计算应用的基于深度学习的图像识别加速器DV700的架构，并在FPGA环境中测量了其性能。结果表明，在79兆赫的工作频率下，该架构在GoogleNet算法中可达到12.9帧每秒，在SSD算法中可达到15.6帧每秒。

关键词

深度学习，FPGA，影响，图像识别，图形处理器

I. INTRODUCTION

随着近年来以深度学习为基础的人工智能技术的发展，在边缘/云计算领域已提出了多种硬件加速方法。特别是作为边缘计算的推理硬件加速方法，已提出基于图形处理器（如英伟达 Jetson TX 2 [1] ,）的方法、通过降低位宽（精度）实现电路规模缩小的深度学习网络实现方法，以及通过布置多个数字信号处理器（DSP）等处理器阵列来实现的方法。

本文介绍了由DMP实现的基于半精度浮点运算的边缘计算深度学习加速硬件DV700，该硬件主要面向图像识别应用。

II. DV700 概述

DV700 专为边缘计算中的推理处理加速硬件而设计，并将设计数据作为设计知识产权授权给客户。实际实现形式是对应于 FPGA、专用集成电路等的软件宏，客户可使用标准的综合及布局布线流程进行实现。

DV700 包含一个卷积运算单元、一个池化处理单元、一个激活函数、一个全连接层运算单元、一个内部共享内存、一个总线接口，以及一个基于 RISC‐V指令集架构的处理器，该处理器作为整个硬连线逻辑和算术单元的控制CPU。

作为一种软件堆栈，我们提供了将从常用的深度学习框架（如 Caffe、TensorFlow 和 Keras）导出的已训练网络转换为 DV700 的工具，并且用户希望使用的训练网络可由硬件读取，推理过程可通过 DV700 完成。

示意图0

在标准配置中，卷积单元实现了576个乘加运算单元和640 KB容量的内部共享内存。

作为一种深度学习网络，它支持与图像识别相关的主要网络，如GoogleNet、MobileNet、SqueezeNet、ResNet、SegNet、SSD和Yolo。此外，在切换网络时，只需更改RISC CPU上的控制程序即可完成切换，无需更改硬件本身。

III. DV700 样品实现

本文在赛灵思的评估板ZC706上实现了DV700核心并进行了评估。该板上使用的赛灵思 XC7Z045 是带有内置ARM CPU和350个逻辑单元的片上系统类型FPGA。内置ARM CPU用于结果显示输出和IP核的控制，而其他深度学习处理则由DV700 IP核完成。

IV. DV700 性能

在上一章所述环境下，对主要深度学习网络算法进行性能评估的结果如下表所示。

深度学习网络	处理毫秒 @79兆赫	帧秒
VGG16	589.3	1.7fps
ResNet‐50	182.0	5.5帧/秒
GoogleNet	77.7	12.9帧/秒
SSD	64.1	15.6帧/秒

尽管FPGA的工作频率为79兆赫兹，但卷积等计算部分仍有提升频率的空间。

V. S MMAR

本文介绍了专用于加速深度学习推理处理的硬件架构 DV700的概要及其性能。未来，在自动驾驶等领域的边缘计算中，图像识别技术的重要性日益增加，实现更高效率和更高精度的功能至关重要。

未来，关于如何在应用/服务层面推进社会实施的讨论也变得重要起来。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。