高效推理的设计实践:神经网络模型优化策略
在神经网络的实际应用中,推理效率是一个关键问题。由于神经网络计算通常消耗大量能量和带宽,在边缘场景中部署面临着诸多挑战。为了解决这些问题,人们广泛研究和应用了压缩技术,主要包括网络剪枝和量化。
1. 硬件平台与加速器设计
在FPGA赛道的竞赛中,采用了Xilinx PYNQ Z - 1 FPGA SoC板作为硬件平台。该平台是ZNYQ系列的嵌入式系统,支持Python,包含Cortex - A9处理器、512MB DDR3内存和ZYNQ XC7Z020 - 1CLG400C FPGA芯片,芯片拥有53K查找表(LUTs)、220个DSP和630KB BRAMs。
在这块FPGA板上实现了一个B1152核心,其计算并行度为每周期2 × 4 × 12 × 12次操作,运行频率为144 MHz,为CNN推理应用提供了166GOPs的峰值性能。该设计消耗了83.9%的LUTs、54.3%的FFs、78.9%的BRAMs和100%的DSPs。在连接方面,Aristotle RTL IP与Cortex - A9 CPU之间,有一个32位的AXI - lite内存端口用于控制和寄存器I/O,还有两个64位的AXI - 4内存端口用于特征图和权重,以及一个32位的AXI - 4内存端口用于DDR I/O。基于SSD网络的FPGA系统设计在DAC - SDC’18的FPGA赛道中取得了0.624的交并比(IoU)、11.96帧每秒(FPS)的吞吐量和4.2W的功耗,总得分1.267,获得了一等奖。
2. 网络剪枝和量化
神经网络计算因涉及大量权重,通常能耗和带宽消耗大,在边缘场景部署困难。因此,压缩技术应运而生,
超级会员免费看
订阅专栏 解锁全文
1069

被折叠的 条评论
为什么被折叠?



