
【硬件加速+模型压缩+边缘计算】研究
文章平均质量分 94
近年来,各种深度学习算法对硬件设备的算力提出了高标准,出现了基于CPU、GPU、忆阻器等加速器设计,FPGA因其具有性能好,能源效率高,开发周期快,重构能力强等优点,引起了研究人员越来越多的关注。本专栏提供基础数字电路逻辑设计,最主要的分享基于FPGA的硬件加速器设计方案。
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
Charmve
现就职于国内某top自动驾驶独角兽公司,量产自动驾驶系统架构师,专注于自动驾驶感知模块研发,有多年量产经验。同时,也是迈微AI研习社公众号主理人、优快云博客专家、阿里云社区专家博主,多次对外主题演讲和报告。对国内自动驾驶产品较为了解,熟悉自动驾驶系统全栈研发体系。
展开
-
深度学习加速综述:算法、编译器、体系结构与硬件设计
NeurlPS2019 | Efficient Processing of Deep Neural Network: from Algorithms to Hardware Architectures原创 2020-02-21 01:24:31 · 1563 阅读 · 0 评论 -
TensorRT模型部署实战,英伟达平台,C++ 和python对比(包含源码)
本文介绍了可以使用C ++ API执行的TensorRT用户目标和任务。 进一步的细节在 Samples 部分提供,并在适当的情况下链接到下面。假设您从一个已经训练好的模型开始。 本章将介绍使用TensorRT的以下必要步骤:从模型中创建 TensorRT 网络定义调用 TensorRT 构建器以从网络创建优化的运行时引擎序列化和反序列化引擎,以便在运行时快速重新创建喂入数据为引擎提供执行推理原创 2023-02-09 23:23:32 · 1051 阅读 · 0 评论 -
让深度学习更高效运行的两个视角,来自Momenta的PR分享
我们通过**计算量**和**访存量**来评判深度学习模型的性能。转载 2023-02-09 22:29:07 · 613 阅读 · 0 评论 -
地平线量化方案QAT原理介绍及实践,包含源代码
QAT全称为quantization aware training,是一种模型量化手段,通过在训练过的浮点模型中插入伪量化节点来实现后续的精度fintune,因此QAT相较于PTQ来说往往精度会更高。原创 2023-02-09 21:48:47 · 1155 阅读 · 0 评论 -
嵌入式Linux平台部署AI神经网络模型Inference的方案
ONNX简述ONNX是一种AI神经网络模型的通用中间文件保存方法(可以理解成AI世界的XML),各种AI框架,Inference引擎,甚至OpenCV里面的dnn onnx相关的模块都可以解析ONNX文件并生成特定平台和运行框架所支持的神经网络模型。ONNX本身不是AI神经网络运行框架,只是AI神经网络模型通用中间描述文件格式GitHub链接https://github.com/onnx/onnx编程语言C++ / Python热度 ★★★★★☆TensorRT简原创 2020-07-06 22:55:46 · 3218 阅读 · 2 评论 -
硬件加速 | ZYNQ-7000 PS端(ARM)网络编程(TCP协议)
ARM端的TCP协议编程步骤和UDP协议编程步骤完全相同,只是在ARM端的C代码实现不同,在本次TCP协议实现过程中我们主要利用了官方提供的Demo,然后根据自己的需要加以改写。原创 2020-06-13 12:47:26 · 1651 阅读 · 0 评论 -
硬件加速 | ZYNQ-7000 GP接口实现
1、GP接口简介 GP接口是ZYNQ-7000系列器件中用于实现PS与PL端进行数据通信的数据接口,GP接口传输数据速率一般较慢,通常用作控制信息的传输,在利用GP接口的时候,PS端的角色是Master,PL端为Slave,此时PS端传送控制信息控制PL端进行相应操作。整个PS端PL端利用GP接口进行数据交换的示意图如下图所示: 寄存器数量原创 2020-06-13 12:41:41 · 1507 阅读 · 0 评论 -
硬件加速 | 常用电路设计之CRC校验码产生器的设计
一、CRC校验码的产生原理 循环冗余编码(CRC)是二进制通信系统中一种常用的差错检测方法,它是通过在原始数据后面添加冗余校验码来实现检测差错的目的。CRC编码的基本原理就是:CRC可由原始数据流的二进制去除以一称作为生成多项式的常数,将得到的商抛弃,余数加到原始数据流二进制数的后面得到,在接收端,用接收的数据再去除以该生成多项式,如果余数为0则校验通过,否则校验不通过。 &n原创 2020-06-13 12:25:18 · 1376 阅读 · 0 评论 -
硬件加速 | 常用电路设计之PRBS伪随机码发生器的设计
一、PRBS伪随机码产生原理 PRBS 伪随机编码是一种专门用于在高速设计中测试高速串行通道传输误码率的一种编码类型。 PRBS伪随机码不仅具有随机序列的一些统计特性和高斯噪声所有的良好的自相关特征,而且具有某种确定的编码规则,同时又便于重复产生和处理,因而在通信领域应用广泛。生成原理是根据本原表达式来生成一段随机码流,本原表达式可以用线性反馈移位寄存器来表示,移位寄存器的长度称为阶数n,常用的阶数有 7, 9,原创 2020-06-13 12:02:00 · 2432 阅读 · 1 评论 -
硬件加速 | ZYNQ-7000整体架构阐述
本次AI加速器的设计,主要利用Xilinx公司的ZYNQ-7000全可编程器件,主要目的是应对人工智能时代算力不足的问题,由于人工智能时代的到来,各种神经网络的训练,数据挖掘,机器视觉和图像处理等算法计算复杂度较高,传统计算机出现计算时间较长或无法计算的问题,工作效率较低,而FPGA作为一种并行处理器件,相比传统CPU而言,计算速度较快,因此,我们可以尝试将一些原来由CPU处理的相关计算交给FPGA来完成,从而提升计算速度原创 2020-06-13 11:57:43 · 1457 阅读 · 0 评论 -
硬件加速 | 基于FPGA的深度学习CNN加速器设计(论文复现)
Zhang C, Li P, Sun G, et al. Optimizing fpga-based accelerator design for deep convolutional neural networks. ACM/FPGA 2015原创 2020-06-13 11:53:22 · 7057 阅读 · 6 评论 -
节能型AI应用的新方法——一种将ANN转换为SNN的算法
人工智能如何在驾驶员辅助系统、智能手机以及其他移动设备上高效地运行,是研究人员们一直关注的问题。近日,奥地利格拉茨技术大学(TU Graz)的两位研究人员找到一种简单的将人工神经网络(ANN)转换为脉冲神经网络(SNN)的算法,神经元只需发出相对较少的信号就可以完成图像分类,并且分类精度非常接近当前最先进的图像分类技术水平。转载 2021-03-29 11:57:44 · 1529 阅读 · 1 评论 -
深度学习硬件加速综述写作心得
学会写出一篇好的综述文章,能较好的锻炼和提升自己的文献检索、阅读总结的能力,这是研究生必须掌握的能力。原创 2020-06-16 18:22:41 · 2796 阅读 · 3 评论 -
边缘AI新方法TinyML,超低功耗,存储占用KB计,在边缘设备上进行机器学习
人工智能 AI 正在加快速度从云端走向边缘,进入到越来越小的物联网设备中。而这些物联网设备往往体积很小,面临着许多挑战,例如功耗、延时以及精度等问题,传统的机器学习模型无法满足要求,那么微型机器学习又如何呢?转载 2021-02-15 19:06:36 · 1403 阅读 · 0 评论 -
取代Python多进程!高性能分布式执行框架 - Berkeley Ray
Ray是一个基于Python的分布式执行引擎。相同的代码可以在单个机器上运行以实现高效的多处理,并且可以在群集上用于大量的计算。原创 2020-08-09 10:22:14 · 1549 阅读 · 0 评论 -
5G通信、硬件加速实践——以IEEE杯赛题设计思路为例
5G通信、硬件加速技术已经成为现代通信技术的重要研究对象,在科研、技术应用等方面都发挥着举足轻重的作用,全球范围内都在关注和研究此问题。在2019年末,我在寻找毕业设计题目的时候,无意间发现此技术方案和IDEA,给了我很大的兴趣,通过竞赛的方式提出了现在前沿的技术发展方向。因此,本篇文章主要分享研究的idea,同时也给出了大量的参考资料和国内外重要的文献。在此呼吁,对此问题感兴趣的可以联系我,...原创 2020-03-29 15:47:00 · 1534 阅读 · 0 评论 -
你写的ML代码占多少内存?这件事很重要,但很多人还不懂
算法完美是重要的,但更重要的是成功部署,这篇文章能够帮助你了解有关代码内存占用的一切。在进行机器学习任务时,你需要学会使用代码快速检查模型的内存占用量。原因很简单,硬件资源是有限的,单个机器学习模块不应该占用系统的所有内存,这一点在边缘计算场景中尤其重要。比如,你写了一个很棒的机器学习程序,或者搭建了一个不错的神经网络模型,然后想在某些 Web 服务或 REST API 上部署模型。或者你是基于工厂转载 2021-06-22 19:00:00 · 247 阅读 · 0 评论 -
Only Train Once:微软、浙大等研究者提出剪枝框架OTO,无需微调即可获得轻量级架构...
来自微软、浙江大学等机构的研究者提出了一种 one-shot DNN 剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。转载 2021-08-25 19:00:00 · 274 阅读 · 0 评论 -
CVPR 2020:华为GhostNet,超越谷歌MobileNet,已开源
来自华为诺亚方舟实验室的一篇工作近日被CVPR 2020接受,提出了一种新型的端侧神经网络架构,GhostNet。作者:韩凯、王云鹤等。该架构可以在同样精度下,速度和计算量均少于SOTA算法。原创 2020-07-18 19:30:00 · 563 阅读 · 0 评论