自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (12)
  • 收藏
  • 关注

原创 MSK正交调制/解调

关于MSK原理这里不再赘述,目标即实现MSK正交调制解调,性能和matlab自带的mskmod/mskdemod性能一致,功能一致。分别对比了MSK理论相干解调、经过差分编解码的相干解调以及自己写的MSK误码性能,基本保持一致。

2024-11-26 08:54:01 376

原创 基于FPGA的YOLOV5s神经网络硬件部署

网络量化为INT8,结合硬件资源BRAM、DSPs及通信带宽,我们评估将YOLOV5s部署到ZU3上,300MHz主频下性能大概可以做到16FPS(本设计以YOLOV5s部署于FPGA上为例进行分析概述。YOLOV5s网络主要包括backbone、neck、head三部分。硬件加速器资源和网络部署评估。FPGA以Ultra96为例, ZU3EG资源如下图所示。

2024-07-23 14:15:13 3267 2

原创 神经网络处理器模拟器的一点思考

实践证明,通过神经网络模拟器,相比传统的基于FPGA的神经网络处部署仿真验证,效率提升了数倍以上,同时对整个推理过程中的关键点、硬件资源消耗和性能评估,都能在实际部署前进行评估,与实际部署后进行对比分析,结果基本保持一致。有效提升了部署效率和缩短了部署时间。在设计和实现一个通用的模拟器接口时,我们首先要明确我们的目的,即加速硬件验证和仿真,因此侧重点包括模拟基本的网络推理、硬件资源分配、功能验证、性能评估、指令集验证等等。因此,在实际模拟器实现时,会着重对需要分析和加速评估的关键点进行模拟和推理实现。

2024-07-22 09:05:58 523

原创 用户数据的FLASH存储与应用(FPGA架构)

但是对于一些大的网络模型,往往片上RAM受限而无法完全保存权重,因此需要将权重放置在外部DDR或者PSRAM等外部存储器中,等具体需要的时候,从片外load进片上,然后计算完丢弃,重新load下一批次权重。这里就涉及到,当我们的应用固化后,片外DDR存储器权重加载问题,通常包括集中方法,一是上电后,通过PCIE/UART/SD卡等load进DDR;另外,由于涉及对FLASH读控制操作,需要配置FLASH管脚,需要调用STARTUPE2原语,用于对CCLK进行设置,用于该时钟。

2024-03-12 10:40:45 1195 1

原创 基于FPGA的PSRAM接口设计与实现

仿真工具采用VCS+Verdi,PSRAM接口控制IP+APS6408L model进行验证。备注:以AP公司的APS6408L为例进行设计分析和验证。

2024-03-08 09:02:29 2514 2

原创 基于FPGA的HyperRam接口设计与实现

综合功耗和面积等优势,在一些SWAP应用领域,在满足基本带宽需求的情况下HyperRAM相对DDR具有较大的优势。分别接口在100M/200M/250MHz主频等情况,工作均OK。在250MHz下,Hyperram理论带宽可到500MB/s,基本满足常规对带宽需求应用。针对一些低功耗、低带宽应用(物联网、消费产品、汽车和工业应用等),涉及到外部存储,HyperRAM提供了更简洁的内存解决方案。关于一些详细的信息和指标,具体可见相关Datasheet()典型应用:红外机芯模组等。

2024-03-07 13:30:42 3144 1

原创 神经网络硬件加速器-DPU分析

缓存池根据相关专利,为统一缓存池,与传统的输入缓冲区-计算核阵列-输出缓存区结构不同,其采用统一的缓存池,多通道数据读写调度单元设计。单个计算阵列中包含多个乘法器单元,加法树,非线性计算采用流水线方式设计,通过复制OCP个并行流水线,完成OCP并行度的输出通道卷积运算。DPU通过组合多种并行度来搭配多种卷积架构,DPU卷积架构包括三个维度的并行度:像素并行度/输入通道并行度/输出通道并行度(通常输入通道并行度=输出通道并行度)。:计算阵列包括P个PE,每个PE用于完成P个像素并行度计算;

2023-10-19 09:36:49 1673

原创 神经网络硬件加速器-模型分析

尽管神经网络中的计算具有很强的可并行性,但是由于受到计算资源和存储资源的限制,往往不能全部同时映射到单个芯片上,因此需要设计一些调度方法将神经网络映射到计算芯片的计算阵列上依次执行。②计算核心充分复用这些输入数据,更新输出缓存中的所有相关的输出部分和;计算过程中不会再有其他对输出缓存的访问,对于剩余的输出特征图计算,会重复上述。对于某个神经网络加速,通常在有限的片外传输带宽限制下,通过高效的数据调度,驱动尽可能多的计算单元,以实现最高的有效。通道的卷积核权重被充分复用,以更新存储在输出缓存中的。

2023-03-14 08:55:13 1414

无线通信FPGA设计(完整版)

无线通信FPGA设计,经典书籍,推荐下载阅读

2011-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除