卷积神经网络的FPGA硬件加速——QMJ

原创

已于 2022-06-10 15:57:36 修改 · 2.9k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#fpga开发 #cnn #深度学习

于 2022-02-22 16:57:17 首次发布

本文介绍了通过FPGA实现卷积神经网络（CNN）的硬件加速，采用脉动阵列结构设计，详细阐述了PE单元的工作原理、数据流动过程以及实验结果分析。实验表明，在Modelsim仿真中，全部卷积过程只需约90次脉冲，预计在50MHz时钟频率的FPGA上，所需时间仅为1.8us。

一、本次实验目的：

1）学习卷积神经网络；

2）FPGA中实现卷积运算。

二、脉动阵列结构设计

PE（处理单元）的内部结构设计如图1所示，PE完成乘加运算得到的结果保存于寄存器中，其中IN和W表示1个字节（8bit）的输入和权重数据传递到PE。

在这里插入图片描述

图1 PE结构

图2中，W、IN和OUT表示阵列的输入和输出，脉动阵列一行4个PE单元组成一组。

脉动阵列PE得到的结果传递到out1，out2，out3的步骤：

第一步：PE单元完成4次乘加运算；

第二步：将一组PE得到的结果，从左到右依次传递给out1[0:7]，out1[8:15]，out1[16:23]，out1[24:31]；

第三步：PE的寄存器进行清零，再开始执行第一步。
在这里插入图片描述

图2 阵列结构

三、脉动阵列的数据流动

本次卷积计算过程中，输入矩阵选用的是5*5的矩阵数据，权重选用的是3个2*2的矩阵数据。
图4显示IN矩阵在向脉动阵列传递数据过程中，将5*5的矩阵分成了两个4*5的矩阵IN1，IN2，分别选取的是IN矩阵1~4行和2~5行的矩阵数据。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Rehabilitation2018

关注关注

3
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用FPGA模块进行硬件加速

MZEing的博客

09-14

964

FPGA的编程是通过硬件描述语言（HDL）进行的，其中最常用的是VHDL（VHSIC硬件描述语言）和Verilog。开发人员使用HDL编写硬件描述代码，然后将其综合为FPGA的配置位流文件（bitstream），通过编程器将其加载到FPGA芯片中。本文提供了一个简单的向量加法示例代码，希望能帮助读者了解如何使用FPGA模块进行硬件加速。下面以一个简单的向量加法为例，介绍如何使用FPGA模块进行硬件加速。此时，我们可以通过软件编程来调用FPGA模块，并将数据发送到FPGA进行加速计算。

FPGA硬件加速综述

jedibobo的博客

03-20

3769

FPGA硬件加速综述背景本科期间参加了不少竞赛，其中和FPGA相关的主要是集创赛以及Xilinx全球自适应计算大赛两个。虽然接触到的硬件类型五花八门（ZYNQ ZYNQ Ultrascale+ Alveo ACAP等），但是主要的学习都集中在深度学习尤其是目标检测和分类算法在FPGA上的部署。概述 FPGA用于硬件加速主要有以下优势：可以通过优化提高并行度，减小推理的时延可以利用丰富的I/O做一些特殊的应用劣势其实也是优势导致的：优化程度两极分化，需要很高的工程技术 FPGA在相

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

Thomson_ 2022.05.18
老哥，这个脉动阵列的源码可以分享一下吗，谢谢啦[face]emoji:063.png[/face][face]emoji:063.png[/face]

图像处理：卷积模块FPGA 硬件加速

weixin_34248118的博客

04-22

1602

本文记录了利用FPGA加速图像处理中的卷积计算的设计与实现。实现环境为Altera公司的Cyclone IV型芯片，NIOS II软核+FPGA架构。由于这是第一次设计硬件加速模块，设计中的瑕疵以及问题欢迎前来讨论。更新记录： D0423 记录FPGA核心计算模块和控制模块 D0426 记录FPGA核心计算模块的控制驱动，性能与功能测试 Part1 : 卷积相...

基于FPGA的卷积神经网络加速器

09-27

基于FPGA的卷积神经网络加速器

‌FPGA上的YOLOv5：硬件加速与实时检测实现

最新发布

2501_93894240的博客

10-24

321

通过上述方法，FPGA上的YOLOv5在保持85%+精度的同时，实现>150fps的实时检测，适用于无人机、边缘计算等场景。YOLOv5作为高效的单阶段目标检测算法，在FPGA上实现可充分发挥硬件并行优势。动态电压频率调整（DVFS）将功耗降至<5W，显著低于GPU方案。

使用专用硬件加速深度卷积神经网络

weixin_34417635的博客

08-26

1048

英文论文链接：http://research.microsoft.com/apps/pubs/default.aspx?id=240715 翻译：卜居转载请注明出处：http://blog.youkuaiyun.com/kkk584520/article/details/47711755 【摘要】最近在多层卷积神经网络的突破导致了识别任务（如大量图片分...

论文精读-基于FPGA的卷积神经网络和视觉Transformer通用加速器

a284365的博客

05-01

4871

针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题，该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先，根据卷积和注意力机制的计算特征，提出一种面向FPGA的通用计算映射方法;其次，提出一种非线性与归一化加速单元，为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后，在Xilinx XCVU37P FP- GA上实现了加速器设计。

基于FPGA设计的kalman滤波器——QMJ

微核实控的博客

02-22

5042

基于Verilog设计的kalman滤波器本设计将通过matlab和verilog分别编写的kalman程序，对同一组数据进行处理，将数据处理效果对比，分析verilog的kalman滤波效果。一、仿真软件本文kalman滤波仿真使用的软件包括：Quartus II，ModelSim，Matlab。 Quartus II仿真设备选择5CSEMA5F31C6。二、Kalman滤波介绍 1，Kalman滤波用途：用于机器人导航，控制，传感器数据融合以及军事方面的雷达系统、导弹追踪等等。近年来多应用于计

基于Faddeev算法的卡尔曼滤波FPGA实现——QMJ

微核实控的博客

02-22

1383

一、设计目的（1）使kalman滤波程序中数据计算流程模块化，结构清晰。（2）使verilog程序可以完成矩阵之间加、减、乘和求逆运算。（3）运用求解矩阵舒尔补方法设计Faddeev算法。二、设计思路及算法原理运用Faddeev算法搭建出流水线脉动阵列（PSA）,该阵列通过高斯消元方式求解出矩阵的舒尔补。 Faddeev算法是将四个输入矩阵A、B、C和D组合成一个新的矩阵M，然后对矩阵进行高斯消元法进行矩阵求解。其中A为非奇异矩阵，设矩阵M为 Faddeev算法是通过对矩阵M进

基于ARM和FPGA的数字示波器设计——QMJ

微核实控的博客

07-13

4384

本设计是一个4通道便携式数字示波器，采用DE1-SOC双核心开发板进行设计。示波器的数模转换器采用LCT2308芯片实现。整个系统的设计由两部分完成，一是完成FPGA硬件电路的设计；二是使用ARM设计系统的软件功能。本便携式数字示波器具有体积小、重量轻及低功耗的优点。使用的工具包括：Quertus II 18.0，Modelism，逻辑分析仪，嵌入式linux -SD系统启动卡。目前实现的功能，可以调整波形信号在显示器中进行上下平移，时间轴缩放及纵轴缩放。 ...

精选资源

《计算机网络：自顶向下方法（第七版）》思维导图pdf+英文缩写索引表excel

08-04

《计算机网络：自顶向下方法（第七版）》是一本广受赞誉的计算机网络教材，由James F. Kurose和Keith W. Ross撰写。这本书采用了一种独特的自顶向下的教学方法，从应用层开始，逐步深入到网络的底层机制，使读者能够...

基于FPGA的神经网络加速设计(一）

qq_45427771的博客

04-01

788

/半精度浮点数 FP16 = {sign,exponent,mantissa} sign = 1bit exponent = 5bit mantissa = 10bit//x=±1.a×2^b 指数位是上述公式中的b加上偏置值，一般为2^(k−1)−1,其中k表示指数位的位数,尾数位是上述公式中的a//指数部分，5个比特位，全0和全1有特殊用途，所以是00001~11110，也就是1到30，减去偏置15，指数部分最终范围为-14 ~15reg sign;//符号位。

FPGA硬件加速平台

12-16

本平台是一款基于PCI Express总线架构的高性能FPGA算法加速卡，该FPGA加速板卡采用Xilinx的高性能7系列FPGA作为运算节点。

如何用FPGA实现算法的硬件加速

08-03

当设计者试图从算法中获得最佳性能但软件方法已无计可施时，可以尝试通过硬件/软件重新划分来进行加速。FPGA易于实现软件模块和硬件模块的相互交换，且不必改变处理器或进行板级变动。本文阐述如何用FPGA来实现算法的硬件加速。

神经网络硬件加速器-模型分析

azhgul的专栏

03-14

1564

尽管神经网络中的计算具有很强的可并行性，但是由于受到计算资源和存储资源的限制，往往不能全部同时映射到单个芯片上，因此需要设计一些调度方法将神经网络映射到计算芯片的计算阵列上依次执行。②计算核心充分复用这些输入数据，更新输出缓存中的所有相关的输出部分和；计算过程中不会再有其他对输出缓存的访问，对于剩余的输出特征图计算，会重复上述。对于某个神经网络加速，通常在有限的片外传输带宽限制下，通过高效的数据调度，驱动尽可能多的计算单元，以实现最高的有效。通道的卷积核权重被充分复用，以更新存储在输出缓存中的。

基于FPGA的卷积神经网络加速器研究

axingxiansen的博客

05-09

1881

摘要 卷积神经网络(Convolution Neural Network，CNN)是在计算机视觉，图像识别和分类等领域应用最成功的人工神经网络数学模型。高性能神经网络结构规模庞大，一次完整推理过程需要进行大量乘法加法计算。训练出一个高性能卷积神经网络模型需要的计算量是推理过程的数十倍至更多。当前的理论和技术水平无法做到一个模型可以普适所有领域，不同的应用场景需要设计特定神经网络结构和采集特定数据集。庞大的算力需求和高质量的数据采集是训练得到高性能卷积神经网络的两个关键内容。如何提高算力是当下企业

FPGA硬件加速学习 vivado hls --------------- 002

qq_674462612的博客

06-05

3748

参考如下链接： https://github.com/xupsh/pp4fpgas-cn 简介需要充分理解内存层级和带宽、空间局部性与时间局部性、并行结构和计算与存储之间的取舍和平衡。可参考UCSD的 CSE 237C 总体来说，HLS可以自动完成以下曾经需要手动完成的工作： HLS自动分析并利用一个算法中潜在的并发性 HLS自动在需要的路径上插入寄存器，并自动选择最理想的时钟 HLS自动...

FPGA实现卷积神经网络加速

左氏浮夸的博客

09-25

3172

基于Caffe中CIFAR_10.prototxt网络，对CIFAR-10数据集分类。 CIFAR_10.prototxt网络 name: "CIFAR_10" layer { name: "data" type: "Input" top: "data" input_param { shape: { dim: 1 dim: 3 dim: 32 dim: 32 } } } layer { name: "conv1" //该层的名称 type: "Convolution" //

fpga的硬件加速原理

僧哥叨叨叨

10-21

3449

fpga做硬件加速