Xilinx Zynq系列FPGA实现神经网络中相关资源评估

最新推荐文章于 2025-10-08 20:33:33 发布

转载最新推荐文章于 2025-10-08 20:33:33 发布 · 1.6k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MDE0MjcxMQ==&mid=2247492022&idx=1&sn=00a53818e14e3068ff29d6998a9e4d54&chksm=fba7b62eccd03f380114a79acb811f2ef7b87bad39fa1dfb39cd960a0886a62012439c602f14&scene=126&&sessionid=0

文章标签：

#网络 #卷积 #神经网络 #python #java

本文探讨了Xilinx Zynq FPGA在神经网络实现中的内存占用问题，介绍了FPGA内存结构（如寄存器、移位寄存器、FIFO和BRAM）及其在卷积操作中的作用。重点分析了PipeCNN在FPGA加速中的潜力，并比较了不同方案实现大型神经网络的优缺点。最后，提到了Virtex-7高端FPGA的概览和资源利用情况。

部署运行你感兴趣的模型镜像

Xilinx zynq系列FPGA实现神经网络评估

本篇目录

1. 内存占用

1.1 FPGA程序中内存的实现方式

1.2 Zynq的BRAM内存大小

1.3 一个卷积操作占用的内存

2. PipeCNN可实现性

PipeCNN论文解析：用OpenCL实现FPGA上的大型卷积网络加速

2.1 已实现的PipeCNN资源消耗

3. 实现大型神经网络的方法

4. Virtex-7高端FPGA概览、7系列FPGA相关文档

正文

Zynq7000系列概览

内存占用

1.1 FPGA程序中内存的实现方式

参阅xilinx文档UG998

FPGA并没有像软件那样用已有的cache，FPGA的HLS编译器会在FPGA中创建一个快速的memory architecture以最好的适应算法中的数据样式（data layout）。因此FPGA可以有相互独立的不同大小的内部存储空间，例如寄存器，移位寄存器，FIFOs和BRAMs。

寄存器：最快的内存结构，集成在在运算单元之中，获取不需要额外的时延。

移位寄存器：可以被当作一个数据序列，每一个数据可以在不同的运算之中被重复使用。将其中所有数据移动到相邻的存储设备中只需要一个时钟周期。

FIFO：只有一个输入和输出的数据序列，通常被用于循环或循环函数，细节会被HLS编译器处理。

BRAM：集成在FPGA fabric模块中的RAM，每个xilinx的FPGA中集成有多个这样的BRAM。可以被当作有以下特性的cache：1.不支持像处理器cache中那样的缓存一致性（cache coherency,collision）,不支持处理器中的一些逻辑类型。2.只在设备有电时保持内存。3.不同的BRAM块可以同时传输数据。

1.2 Zynq的BRAM内存大小

zynq 7z020的BRAM为4.9Mb，7z035的BRAM为17.6Mb（2.2MB）

1.3 一个卷积操作占用的内存

例如，我们实现的卷积函数，输入27×600，卷积核16×27，输出16×600，数据类型为float。

//convolution operation
        for (i = 0; i < 16; i++) {
    for (j = 0; j < 600; j++) {
      result = 0;
      for (k = 0; k < 27; k++) {
        temp = weights[i*27+k] * buf_in[k*600+j];
        result += temp;
      }
      buf_out[i*600+j] = result;
    }
  }

在HLS中生成的IPcore占用硬件资源为：