
AI芯片
分析现有AI芯片架构
evolone
这个作者很懒,什么都没留下…
展开
-
AI芯片:寒武纪DianNao,英伟达NVDLA和谷歌TPU1的芯片运算架构对比分析
前面几篇博客分别分析了目前市面上能够找到的各家AI芯片的结构。下面做一个阶段性的对比分析及总结。AI芯片运算架构对比整体来看,NVDLA的架构与寒武纪的DianNao比较像。所以,单位资源的性能应该是差不多的。二者性能的区别,就看资源的多寡了。寒武纪的DianNao,共16个PE,每个PE可以计算一个神经元,每个周期最多计算出16个神经元。NVDLA共2个core。每个core有8个m...原创 2019-01-18 20:10:39 · 9104 阅读 · 4 评论 -
AI芯片:英伟达NVDLA结构分析
英伟达开源了深度学习硬件架构:NVDLA。包括完整的源代码:Verilog代码,C_Model代码,以及验证平台代码。英伟达官网上也有详细的文档。非常值得学习推敲。作为从业者,我更加关注NVDLA卷积核的实现方式。不过,文档中并没有详细的说明。于是,直接看代码,分析结构。好记性不如烂笔头。顺便将看代码的过程中学习到的东西,记录下来。1.NVDLA硬件架构...原创 2018-11-28 00:01:41 · 18709 阅读 · 19 评论 -
AI芯片:华为昇腾(ASCEND)310结构分析
华为的麒麟SOC中使用的是寒武纪的AI芯片模块。但是,华为自己也推出了自有的AI芯片架构。本文根据华为公布的信息,简单分析下其结构。所有信息都来自互联网,来自华为的官方信息。感谢华为的分享!!首先看看,华为发布的一张海报,如下图所示。整体采用华为自研的达芬奇架构,采用高性能的3D Cube计算引擎。因为兴趣及工作领域的因素,我更关注其芯片内部的AI 卷积核的设计。从海报中能够看出...原创 2019-05-18 17:09:28 · 20565 阅读 · 5 评论 -
AI芯片:SystemVerilog Debug常用的参考数据--16进制数/半精度浮点数
作为AI芯片设计验证工程师,会用到SystemVerilog/Verilog等硬件语言去写设计代码。写好设计代码后,都会自己先简单测试一下。目前的AI芯片,不再选择传统的单精度和双精度浮点数作计算,而是选择半精度浮点数,如果做了量化,还会选用8bit的定点数。以下是一些常用到的测试数据。1. 16进制数16进制数:十进制数0000(0):00001(1):10010(2):200...原创 2019-03-29 10:50:15 · 1822 阅读 · 0 评论 -
AI芯片:清华大学可重构混合神经网络处理器结构分析
清华大学微纳电子系的尹首一等人于2018年发表论文《A 1.06-to-5.09 TOPS/W Reconfigurable Hybrid-Neural-Network Processor for Deep Learning Applications 》,介绍了他们的面向深度学习人工智能算法的AI芯片架构及性能参数。这是大学的AI芯片,代表了学术界的一种想法。下面分析一下其内部结构。当然,主要...原创 2019-02-16 00:11:24 · 4297 阅读 · 2 评论 -
AI芯片:深鉴科技基于深度压缩的ESE方案分析
二、ESE这篇论文,将上文的Deep Compression技术在FPGA上具体实现。 为了达到更高的效率,本文从三个层次提高计算效率:算法优化,编译高效的调度程序,硬件加速。如Figure 2所示。 本文设计的语音识别系统中,最占用运算资源和存储资源的是LSTM算法。故本文着重优化LSTM算法的计算。 LSTM算法的数据流如图Figure 4所示。的确比较复杂。其中涉及到许多的...原创 2018-09-10 19:01:21 · 2217 阅读 · 0 评论 -
AI芯片:寒武纪Cambricon-X结构分析
五、Cambricon-X Cambricon-X是针对稀疏系数的矩阵计算架构。 深鉴科技的韩松等人的研究发现,可以将传统的深度学习网络模型的许多权重系数去掉,甚至能去掉90%以上,而并不影响模型的计算精度。如下图所示。 目前的深度学习模型的权重系数太多,造成需要的乘法计算非常多,计算时间长,速度慢。 相信,未来的模型会更加复杂,需要的计算更多,时间更久。 未来把模型进行系数删减,就...原创 2018-09-10 18:56:15 · 15173 阅读 · 12 评论 -
AI芯片:寒武纪ShiDianNao结构分析
四、ShiDianNao ShiDianNao的出现是寒武纪在深度学习处理器上细分领域的更加深入。 前面介绍的DianNao针对的是大部分的深度学习神经网络算法,包括CNN和RNN等。 目前比较火而且应用面非常广的领域是计算机视觉,若在这个领域的算法精度实现巨大突破,那么,就将开启广阔的应用领域。比如自动驾驶/安防等等,利润丰厚的领域。 图像识别,这类算法主要采用CNN结构。 于是乎,开...原创 2018-09-10 18:55:21 · 8026 阅读 · 3 评论 -
AI芯片:寒武纪PuDianNao结构分析
三、PuDianNao 上面的DianNao和DaDianNao,其实内部处理逻辑可以说是一样的。 这种架构,只能适用特定的算法类型,比如深度学习(CNN,DNN,RNN)等。 但是,深度学习只是机器学习中的某一类,整个机器学习,有很多其他种类的算法,和深度学习的不太一样,甚至经常用到除法等计算类型。这些算法,目前的应用范围也很广。 为了加快常用机器学习算法的运算,寒武纪又设计出专门针对这...原创 2018-09-10 18:54:33 · 5700 阅读 · 2 评论 -
AI芯片:寒武纪DaDianNao结构分析
二、DaDianNao DaDianNao的诞生稍晚于DianNao,同样也是在2014年。(这里仅仅指论文发表时间) 如果把DianNao看作是嵌入式终端使用的处理器,那么DaDianNao就是服务器上用的大规模高性能处理器。 DaDianNao其实就是采用的DianNao的NFU作为内核,然后在一块芯片上同时放置了16个NFU,于是乎,性能也就是DianNao的16倍。 文章说,在Da...原创 2018-09-10 18:53:18 · 8370 阅读 · 1 评论 -
AI芯片:寒武纪NPU设计分析(DianNao)
国内人工智能处理器独角兽寒武纪,在这个领域,算是走在了世界前沿,经过最近几年的迅猛发展,取得了辉煌的成果。 最近花了些时间研究了下寒武纪发表的一系列论文中介绍的NPU的结构。 记录下来,算是对最近学习内容的总结。寒武纪从2014年开始,发表了一系列的论文,本文仅分析其中几篇: (1)DianNao: A Small-Footprint High-Throughput Accelerato...原创 2018-06-22 22:31:11 · 25052 阅读 · 12 评论 -
AI芯片:商汤科技基于winograd算法的FPGA方案分析
商汤科技2017年发表了一篇论文:Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs. 商汤科技的这篇论文,利用论文Fast Algorithms for Convolutional Neural Networks中研究的winograd算法大量减少乘法操作的优点,应用到卷积计算中去。 总体来说,商汤科技的...原创 2018-04-28 17:49:43 · 9732 阅读 · 3 评论 -
AI芯片:谷歌TPU1设计分析
前言(作者原创,未经允许不得转载。)最近在研究人工智能芯片架构,反复分析了谷歌公开的TPU ( Tensor Processing Unit) 专利,从中获得些许感悟,记录下来,以备之后查看,也方便广大知友查阅。特此感谢谷歌的分享。其实人工智能从06年深度学习的出现,就踏上了再次崛起之路。如果说,IMGNET的举办是快速推进深度学习的发展,让深度学习在图像识别领域大火特火。那...原创 2018-04-02 09:34:12 · 7676 阅读 · 17 评论 -
AI芯片:深鉴科技基于深度压缩的FPGA设计
众所周知,深度学习属于计算密集型,模型中参数众多,占用很大的存储空间。这一特点,在嵌入式终端上应用时,因为硬件资源有限,就成了制约实际应用的瓶颈。 因此,减少模型需要的存储空间有着迫切的理论及现实意义。深鉴科技的创始人韩松,本科毕业于清华大学,斯坦福在读博士,一直研究深度压缩技术,并在FPGA上实现了基于深度压缩技术的ESE,成果发表为论文。 本文主要是分析韩松的2篇论文,来一窥深度压缩的...原创 2018-06-11 18:48:30 · 5241 阅读 · 0 评论 -
AI芯片:清华天机芯片内部结构分析(TianJic)
最近,清华七年磨一剑,放出一大招,文章直接登上NATURE的封面。《Towards artificial general intelligence with hybrid Tianjic chip architecture》。文章介绍了整个TianJic的结构及具体应用。本文延续以往一贯的风格,仅仅研究文章中公开的内部计算架构。一、整体思路人工智能通常有两个主要方向:(1)一种是面向计...原创 2019-08-24 19:24:51 · 13480 阅读 · 1 评论 -
AI芯片:华为Ascend(昇腾)910结构分析
前几天,华为发布了最新的AI芯片,号称目前全球最强,算力吊打谷歌TPU3和英伟达Tesla V100。这么震撼人心,必须挺一波!!华为牛逼!!(这句5毛)下面来具体分析一下。一、昇腾910的整体结构我去华为官网查了一下,然后就得到这么一点信息:(之后截图补上,这是地址:https://e.huawei.com/cn/products/cloud-computing-dc/atlas/...原创 2019-08-26 17:24:08 · 39047 阅读 · 3 评论