
人工智能
文章平均质量分 81
普通网友
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GPU显卡架构
GPU显卡架构GPU架构“征途之旅”即日起航如果成为一个资深DIY玩家,想与众多DIY高手“高谈阔论”GPU架构设计,先必须弄明白显卡GPU架构设计的基本思想和基本原理,读懂GPU架构图正是这万里长征的第一步。GPU显卡架构图分析如下问题:一、顶点、像素、着色器是什么;二、SIMD与MIMD的架构区别;三、A/N在统一渲染架构革新中的三次交锋情况如何;四、为什么提出并行架构设计;五、A/N两家在GPU架构设计的特点及异同点是什么。非统一架构时代的GPU架构组件上世纪的绝大多数显示原创 2021-10-21 06:34:36 · 1649 阅读 · 0 评论 -
华为公有云架构解决方案
华为公有云架构解决方案华为公有云架构华为公有云的主要服务如弹性云服务器(ECS)、弹性伸缩服务(AS)、云硬盘(EVS)、云硬盘备份(VBS)、对象存储服务(OBS) 、虚拟私有云(VPC)、弹性负载均衡(ELB)、Anti-DDOS流量清洗、云数据库(RDS)、IAM统一身份认证、云监控服务(CES)、EI、API等云服务产品。一、 公有云服务架构1、公有云全堆栈解决方案使能数字化转型2、华为公有云架构3、高可用的资源架构模型二、 公有云服务的主要服务产品1、华为云标准产品体系原创 2021-10-20 06:27:04 · 1144 阅读 · 0 评论 -
云服务与设备供应商
云服务与设备供应商云服务提供商正在摆脱硬件提供商云服务提供商通过购买基础架构将其群集,以软件的形式向用户提供服务,软件是云服务提供商的自然优势。随着云计算变得越来越成熟,云服务提供商逐渐转向硬件研发。自云计算兴起以来的十多年中,云服务提供商一直在寻找OEM、ODM来购买服务器、存储、网络设备,然后将资源集中起来,向用户提供基础设施、平台或软件形式,通常称为IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。简化用户对这些资源的部署和使用,节省成本,对云计算的需求正在增加。选择原创 2021-10-19 06:17:55 · 7033 阅读 · 0 评论 -
硬件专业化和软件映射的敏捷框架
硬件专业化和软件映射的敏捷框架概述随着摩尔定律接近尾声,设计专用硬件及将应用程序映射到专用硬件的软件,都是很有前途的解决方案。硬件设计决定了峰值性能,软件也很重要,决定了实际性能。硬件/软件(HW/SW)协同优化硬件加速和软件映射,提高整体性能。当前的流程将硬件和软件设计隔离。由于编程层次低,设计空间大,硬件和软件都难以设计和优化。将介绍AHS,一个用于张量应用程序的硬件专业化和软件映射的敏捷框架。对于使用高级语言描述的张量应用程序,AHS可以自动定义硬件和软件间的接口,协同导航巨大的设计空间,自动原创 2021-10-19 05:06:38 · 579 阅读 · 0 评论 -
GPGPU台积电7nm制程
GPGPU台积电7nm制程36氪获悉,壁仞科技宣布其首款通用GPU“BR100”正式交付台积电生产。这一芯片采用了台积电7纳米的制程工艺,已进入流片阶段,预计将在明年面向市场发布。壁仞科技本次交付流片的通用 GPU —— BR100,具有高算力、高通用性、高能效三大优势,采用先进的 7 纳米制程工艺,依托芯片架构,集合了诸多业界最新的芯片设计、制造与封装技术。据了解,“BR100”系列完全依托壁仞科技自主原创的芯片架构,主要聚焦的场景是人工智能训练推理、通用运算等,包括智慧城市、公有云、大数据分析、自原创 2021-10-18 06:17:17 · 1237 阅读 · 0 评论 -
C++高级编程总结
C++高级编程总结C++高级编程笔记头文件添加注释(文件名, 作者, 函数简介, 日期).当头文件数目较多时, 应将头文件放在include目录下, 源文件放在source目录下.const常量有数据类型, 宏常量没有数据类型.对于重载赋值运算符, 应该用"引用传递"方式函数入口处用assert检查内存分配方式有三种, 从静态存储区域分配, 从栈上分配, 从堆上分配, 静态存储区包括全局变量, static变量等.C++/C语言,没有办法知道指针所指的内存容量.指针消亡了, 不表示所指的原创 2021-09-27 06:32:36 · 1174 阅读 · 0 评论 -
天元MegEngine训练推理
天元MegEngine训练推理Brain++ 新一代AI生产力平台旷视Brain++是由旷视研究院自主研发的新一代 AI 生产力平台,致力于帮助企业和开发者提升AI生产效率、规范生产流程。Brain++的核心能力包括数据的处理、清洗和管理能力,算力的共享、调度和分布式能力,算法的训练、推理及部署能力,目前,旷视正通过逐步开源核心框架、开放算力和数据平台的形式,为企业客户和广大开发者提供规模化AI生产能力。核心模块天元MegEngine天元MegEngine诞生于2014年并于2020年3月开源,原创 2021-06-14 05:52:25 · 418 阅读 · 1 评论 -
MLIR: 编译器基础架构重定义
MLIR: 编译器基础架构重定义MLIR(多级中间表示)是语言(如 C)或库(如 TensorFlow)与编译器后端(如 LLVM)之间的中间表示 (IR) 系统。允许不同语言的不同编译器堆栈之间的代码重用以及其他性能和可用性优势。MLIR 由Google开发为一个开源项目,主要是为了改进 TensorFlow 在不同后端的支持,但通常可用于任何语言。背景要了解 MLIR 的适用范围,需要简要概述 C、Java 和 Swift 等常用语言的编译器基础架构,然后继续介绍 TensorFlow 的编译器原创 2021-06-09 06:04:12 · 930 阅读 · 2 评论 -
Paddle Inference推理部署
Paddle Inference推理部署飞桨(PaddlePaddle)是集深度学习核心框架、工具组件和服务平台为一体的技术先进、功能完备的开源深度学习平台,已被中国企业广泛使用,深度契合企业应用需求,拥有活跃的开发者社区生态。提供丰富的官方支持模型集合,并推出全类型的高性能部署和集成方案供开发者使用。技术优势• 开发便捷的深度学习框架飞桨深度学习框架基于编程一致的深度学习计算抽象以及对应的前后端设计,拥有易学易用的前端编程界面和统一高效的内部核心架构,对普通开发者而言更容易上手并具备领先的训练性能原创 2021-06-07 05:45:53 · 2201 阅读 · 0 评论 -
AI推理与Compiler
AI推理与CompilerAI芯片编译器能加深对AI的理解, AI芯片编译器不光涉及编译器知识,还涉及AI芯片架构和并行计算如OpenCL/Cuda等。如果从深度学习平台获得IR输入,还需要了解深度学习平台如Tensorflow、TVM等。编译器领域的知识本身就非常艰深,和AI模型本身的关系也不是特别紧密,很难将AI建模作为发展方向,可以多关注GPGPU Architecture。即使AI芯片过气了,GPGPU还是会长盛不衰。OneFlow是有其独特的设计理念和技术路线的。目前市面上已有的众多开源框架原创 2021-06-05 06:23:20 · 653 阅读 · 0 评论 -
网络安全智能芯片
网络安全智能芯片物联网安全芯片、金融终端安全芯片、自主可信计算模块、RCC(高安全蓝牙SIM卡应用方案)和 LoRa超低功耗蓝牙双模物联网芯片等产品。 ——网络身份认证 ——RCC限域通信技术 ——国民安全服务 ——可信计算 ——国产智能卡芯片通用MCU产品产品简介N32G020系列采用32-bit ARM Cortex-M0内核,最大工作频率高达80MHz,片内集成最大256K Flash、20K SRAM、1K Retention RAM、最多30个GPIO,集成12位1Msps SAR ADC原创 2021-06-03 06:01:53 · 32790 阅读 · 12 评论 -
TVM性能评估分析(五)
TVM性能评估分析(五)Figure 3. A futher speed up with operator fusionTable 1. Performance issue of cuBLAS’ batch matmulTable 2. Finding the best combination of number_thread. The results are obtained on a NVIDIA M40 GPU device with CUDA8.0.Figure 4. D原创 2021-05-30 07:29:22 · 377 阅读 · 0 评论 -
异构计算编程
异构计算编程异构计算系统通常由通用处理器和许多特定于域的处理器组成:通用处理器作为控制设备(称为主机),用于复杂的控制和调度;特定于域的处理器作为子设备(称为MLU),用于大规模并行计算和特定于域的计算任务。主机和MLU合作完成计算任务。对于异构计算系统,原始的同构并行编程模型不再适用。因此,异构并行编程模型在学术界和工业界受到越来越多的关注。本文简要介绍了MLU异构编程。编译链接过程异构编程包括Host和MLU。对于主机,主要包括设备获取,数据/参数准备,执行流创建,任务描述,内核启动,输出获取等。原创 2021-05-28 17:49:07 · 619 阅读 · 0 评论 -
服务器硬件层次架构
服务器硬件层次架构MLU服务器层次结构MLU服务器通过PCIe与主机交换数据。具有多个卡的MLU服务器层次结构系统包括五个级别:服务器级别,卡级别,芯片级别,群集级别和核心级别,如图。• 级别0是服务器级别,由几个CPU控制单元,本地DDR存储单元和几个通过PCIe总线互连的MLU卡作为服务器级别的计算单元组成。• 级别1是卡级别。每个MLU卡均包含本地DDR存储单元和作为计算单元的芯片。• 级别2是芯片级别。每个芯片由几个群集组成,作为计算单元。• 级别3是群集级别。每个群集由几个加速核心作原创 2021-05-28 16:48:58 · 676 阅读 · 0 评论 -
FPGA多功能应用处理器
FPGA多功能应用处理器概述:对于H.265/HEVC/VP9编解码处理,FPGA编解码加速卡方案有着完善的功能和preset配置,支持最多的有利于提高画质和降低bitrate的功能,适合各个场景下编解码配置。同时具有灵活部署,易于升级的特点,可根据需求,随时更换成其他协议的编解码功能。非常容易的在同一块FPGA上pipeline部署编解码相关的上下游应用。成本方面,可以显著降低带宽成本、存储成本。智能网卡概述:智能网卡提供网络、存储、安全等方面的加速,这些功能从服务器CPU卸载到智能网卡上,能原创 2021-05-28 06:12:39 · 283 阅读 · 0 评论 -
AI推理单元
AI推理单元推理服务供了一套面向 MLU(Machine Learning Unit,机器学习单元)设备的类似服务器的推理接口(C++11标准),以及模型加载与管理,推理任务调度等功能,极大地简化了面向MLU平台高性能深度学习应用的开发和部署工作。概述推理服务在软件栈中的位置,如下图所示:推理服务共包含以下3个模块的用户接口:• Model: 模型加载与管理• Processor: 可自定义的后端处理单元• InferServer: 执行推理任务基本概念本文描述推理服务中所涉及的具体概念原创 2021-05-28 05:51:15 · 427 阅读 · 0 评论 -
视频结构化编程模型
视频结构化编程模型概述简介CNStream是面向寒武纪开发平台的数据流处理SDK。用户可以根据CNStream提供的接口,开发实现自己的组件。还可以通过组件之间的互连,灵活地实现自己的业务需求。CNStream能够大大简化寒武纪深度学习平台提供的推理和其他处理,如视频解码、神经网络图像前处理的集成。也能够在兼顾灵活性的同时,充分发挥寒武纪MLU(Machine Learning Unit 机器学习处理器)的硬件解码和机器学习算法的运算性能。CNStream基于模块化和流水线的思想,提供了一套基于C+原创 2021-05-27 14:33:30 · 483 阅读 · 0 评论 -
AI算子列表
AI算子列表概述目前只有部分算子可在一个库中同时运行在MLU220和MLU270平台。也就是用户使用 ./build_cnplugin.sh --mlu270 命令编译生成的 libcnplugin.so 文件可同时在MLU220和MLU270上运行,其余算子只能在MLU270上运行。支持MLU220和MLU270平台的算子列表如下:• Faster Rcnn Detection Output• Roi Pool• Proposal• Yolov3 Detection Output• Yolo原创 2021-05-27 13:45:46 · 1152 阅读 · 0 评论 -
虚拟化概述
虚拟化概述本文重点介绍了SR-IOV技术以及MLU270对SR-IOV的支持。SR-IOV简介SR-IOV(Single Root I/O Virtualization)技术是一种基于硬件的虚拟化解决方案,可提供高性能和可伸缩性的虚拟解决方案。SR-IOV制定了标准化机制来实现多个虚拟机共享一个I/O设备。使得在虚拟机之间高效共享PCIe(Peripheral Component Interconnect Express,快速外设组件互连)设备,可以获得与本机相似的I/O性能。了解SR-IOV规范,请原创 2021-05-27 13:24:45 · 689 阅读 · 0 评论 -
芯片流程该要
芯片流程该要一、主要工具软件说到设计工具,就不能不提到三大EDA厂商——cadence,synopsys,mentor。这三家公司的软件涵盖了芯片设计流程的几乎所有所能用到的工具。首先是cadence公司,这家公司最重要的IC设计工具主要有candence IC系列,包含了IC 5141(目前最新版本是IC617),NC_VERILOG(verilog仿真),SPECTRE(模拟仿真),ENCOUNTER(自动布局布线)等等synopsys公司,最出名的是它的综合工具design complier,时序原创 2021-05-27 06:15:37 · 330 阅读 · 0 评论 -
AI 芯片的分类及技术
AI 芯片的分类及技术人工智能芯片有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以 3 种类型的芯片为代表,即 GPU、 FPGA、 ASIC,但 CPU依旧发挥着不可替代的作用;另一种是颠覆经典的冯·诺依曼计算架构,采用类脑神经结构来提升计算能力,以 IBM TrueNorth 芯片为代表。传统 CPU计算机工业从 1960 年代早期开始使用 CPU 这个术语。迄今为止, CPU 从形态、设计到实现都已发生了巨大的变化,但是其基本工作原理却一直没有大的改变。通常 CPU 由控制器原创 2021-05-27 05:49:27 · 968 阅读 · 0 评论 -
将TVM集成到PyTorch
将TVM集成到PyTorch随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户。PyTorch现在具有基于TVM的官方后端torch_tvm。用法很简单:import torch_tvmtorch_tvm.enable()就是这样!然后,PyTorch将尝试在其JIT编译过程中,将所有可能的算子转换为已知的Relay算子。背景与许多其它ML框架不同,PyTorch公开了一个执行的编程接原创 2021-05-26 05:33:08 · 475 阅读 · 0 评论 -
TVM如何训练TinyML
TVM如何训练TinyML机器学习研究人员和从业人员对“裸机”(低功耗,通常没有操作系统)设备产生了广泛的兴趣。尽管专家已经有可能在某些裸机设备上运行某些模型,但是为各种设备优化模型的挑战非常艰巨,通常需要手动优化设备特定的库。对于那些没有Linux支持的平台,不存在用于部署模型的可扩展解决方案。因此,为了定位新设备,开发人员必须实现一次性的定制软件堆栈,以管理系统资源和调度模型执行。机器学习软件的手动优化不是裸机设备领域独有的。实际上,对于使用其它硬件后端(例如GPU和FPGA)的开发人员来说,这已成原创 2021-05-24 06:19:14 · 599 阅读 · 0 评论 -
TVM代码生成codegen
TVM代码生成codegen硬件后端提供程序(例如Intel,NVIDIA,ARM等),提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核,或者提供框架例,如带有图形引擎的DNNL或TensorRT,使用户以某种方式描述模型,实现高性能。此外,新兴的深度学习加速器还具有自己的编译器,内核库或runtime框架。当用户尝试在新的内核库或设备上工作时,必须学习新的编程接口。对统一编程接口的需求变得越来越重要,使所有用户和硬件后端提供程序都在同一页面上。为了与广泛使用的深度学习框架共享编原创 2021-05-24 05:50:25 · 795 阅读 · 0 评论 -
TVM量化小结手册
TVM量化小结手册文章目录• Offical Referenceso TVM quantization roadmap INT8 quantization proposal Quantization Story - 2019-09 Quantization Developmento Quantization Framework supported by TVM TF Quantization Related Pytorch Quantization Related MXNet原创 2021-05-23 20:10:58 · 493 阅读 · 0 评论 -
TVM图优化与算子融合
TVM图优化与算子融合计算图的定义Computational graphs: a common way to represent programs in deep learning frameworks对于图优化来说,有很多种图优化手段:Operator FusionConstant Parameter Path Pre-ComputationStatic Memory Reuse AnalysisData Layout TransformationAlterOpLayoutSimplif原创 2021-05-23 15:08:53 · 1169 阅读 · 0 评论 -
桥接PyTorch和TVM
桥接PyTorch和TVM人工智能最引人入胜的一些应用是自然语言处理。像BERT或GPT-2之类的模型及其变体,可以获住足够多的文本信息。这些模型属于称为Transformers的神经网络类体系结构。 HuggingFace transformers library是实现最受欢迎的库之一。与已经高度优化的实现的卷积模型或LSTM相比,对于Transformers而言,情况并非如此。本文探索TVM如何填补空白。分两个步骤进行操作:• 首先,在TVM上,使用BERT inference推理和调优。•原创 2021-05-23 09:49:00 · 943 阅读 · 1 评论 -
cmodel模拟器开发
cmodel模拟器开发对于一个公司来说,产品的设计周期就是生命线,一般来说都会在设计功能级仿真的c-model后直接转向RTL设计。在目前的技术下,做cycle-by-cycle的设计和直接RTL设计的时间,感觉是差不太多的。nVidia同时维护functional and timing 的simulators。第一个model是否能跑流行的game也是一个问题。需要快速的开发,debug,不然就又到下一代产品了。维护一个好的team,做算法,做架构的,做电路的,做实现的,互相讨论,互相了解彼此的原创 2021-05-22 06:17:54 · 1919 阅读 · 1 评论 -
MXNet 图优化与算子融合
MXNet 图优化与算子融合Graph Optimization and Quantization based on subgraph and MKL-DNNPurposeMKL-DNN引入了两个高级特性:融合计算和降精度核。这些特性可以显著地提高各种深度学习拓扑在CPU上的推理性能。然而,MXNet由于图表示的局限性和以往缺乏图的优化,仍然不能从中受益。幸运的是,MXNet的新子图特性使这些改进现在成为可能。本文说明基于子图的解决方案,以利用MKL-DNN在MXNet中的功能。一般来说,解决方案将原创 2021-05-21 06:34:23 · 699 阅读 · 0 评论 -
CPU/GPU/TPU/NPU...XPU都是什么意思?
CPU/GPU/TPU/NPU…XPU都是什么意思?现在这年代,技术日新月异,物联网、人工智能、深度学习等概念遍地开花,各类芯片名词GPU, TPU, NPU,DPU层出不穷…都是什么鬼?与CPU又是什么关系?HW发布了新款Mate 手机,里面有个叫什么NPU的,听起来很厉害,这是什么东西啊?就是人工智能处理器。什么是人工智能处理器?和CPU有啥区别?和GPU有啥区别?不都带个PU吗?本文通俗易懂的科普一下这些所谓的“XPU”!CPUCPU( Central Processing Unit,原创 2021-05-10 06:12:35 · 1382 阅读 · 0 评论 -
PaddlePaddle推理部署
PaddlePaddle推理部署飞桨推理产品简介作为飞桨生态重要的一部分,飞桨提供了多个推理产品,完整承接深度学习模型应用的最后一公里。整体上分,推理产品主要包括如下子产品各产品在推理生态中的关系如下用户使用飞桨推理产品的工作流 如下获取一个飞桨的推理模型,其中有两种方法i. 利用飞桨训练得到一个推理模型ii. 用 X2Paddle 工具从第三方框架(比如 TensorFlow 或者 Caffe 等)产出的模型转化(可选)对模型进行进一步优化, PaddleSlim 工具可以对模型进原创 2021-05-10 05:27:14 · 445 阅读 · 0 评论 -
硬件软件蓝图灵活的深度学习专业化
硬件软件蓝图灵活的深度学习专业化抽象的专业深度学习(DL)加速堆栈,专为一组特定的框架、模型架构、算子,和数据类型,提供了高性能的吸引力,同时牺牲了灵活性。算法、模型、运算符或数值系统的变化威胁专用硬件加速器的生存能力。提出了VTA,一个可编程的深度学习架构模板,可以在不断变化的工作负载下进行扩展。VTA通过可参数化的体系结构,两级ISA,和一个JIT编译器。两级ISA基于(1)任务ISA显式编排并发计算和内存任务(2)一种微代码ISA,单循环张量张量运算。接下来,提出一个系统配备JIT编译器,原创 2021-05-09 18:09:54 · 384 阅读 · 0 评论 -
TVMNN编译Compiler栈
TVMNN编译Compiler栈内容纲要前言调研目标TVM介绍TVM源码架构i. FrontEndii. Relayiii. BackEndVTA实现原理及设计思想提炼i. 整体结构ii. VTA Hardwarea. a. 指令集b. 数据流c. 控制流b. VTA Configc. Pyng HLSd. 硬件设计思想提炼e. Chisel Scalarf. SIM C++g. Xilinx Scriptsiii. VTA JITa. Driverb. R原创 2021-05-09 13:09:06 · 451 阅读 · 0 评论 -
TVM适配NN编译Compiler缺陷
TVM适配NN编译Compiler缺陷内容纲要前言TVM针对VTA的编译流程i. 自定义VTA架构:TVM的缺陷与性能瓶颈TVM缺陷与瓶颈i. 缺陷一:SRAM配置灵活性差ii. 缺陷二:计算阵列配置僵硬iii. 缺陷三:网络支持少TVM源码修改之静态调度搜索算法前言前文NN编译栈之TVM研究报告深度分析TVM的源码结构,编译器特点。本文介绍TVM的当前缺陷以及如何修改源代码弥补缺陷并适配自己开发的神经网络加速器。不久会在GitHub上开源自己的适配修改工作并向TVM仓库提交新的版本原创 2021-05-09 12:11:25 · 980 阅读 · 1 评论 -
自动微分基本理论
自动微分基本理论神经网络核心是自动微分,本文主要介绍如何使用自动微分,以及自动微分机制,帮助更好的使用自动微分进行训练。一、背景神经网络是由节点和节点间的相互连接组成的。网络中每层的每个节点代表一种特定的函数,对输入进行计算。每个函数都是由不同参数(权重w和偏置b)组成。神经网络训练的过程,就是不断让这些函数的参数进行学习、优化,能够更好的处理后面输入的过程。让神经网络的判断更加准确,首先需要有衡量效果的工具,于是损失函数应运而生。如果想要神经网络的效果好,就要让损失函数尽可能的小,于是深度学习引入原创 2021-05-09 09:21:53 · 793 阅读 · 0 评论 -
Tensor基本理论
Tensor基本理论深度学习框架使用Tensor来表示数据,在神经网络中传递的数据均为Tensor。Tensor可以将其理解为多维数组,其可以具有任意多的维度,不同Tensor可以有不同的数据类型 (dtype) 和形状 (shape)。同一Tensor的中所有元素的dtype均相同。如果对 Numpy 熟悉,Tensor是类似于 Numpy array 的概念。Tensor创建首先,创建一个 Tensor , 并用 ndim 表示 Tensor 维度的数量:创建类似于vector的1-D T原创 2021-05-09 08:56:27 · 481 阅读 · 0 评论 -
车辆在线标定
车辆在线标定车辆标定系统会自动生成用于不同车型的标定表。它包括三个部分:前端数据采集监视系统,一个数据上传/下载工具用于上传采集的数据和下载生成的标定表以及用于性能评估的可视化工具。一. 前端在DreamView中,提供了一个数据采集监视器,用于监视数据标定过程。在车辆标定模式下,收集的数据帧在数据标定监视器中是可视化的。数据帧根据其底盘信息划分为不同的行驶条件。收集的数据帧的量显示为进度条。在车载DreamView环境中:选择–setup mode–下的vehicle calibration原创 2021-05-09 08:14:22 · 1473 阅读 · 0 评论 -
Apollo 自动驾驶开发套件(D-KIT)
Apollo 自动驾驶开发套件(D-KIT)原创 2021-05-09 07:43:30 · 2379 阅读 · 1 评论 -
TVM优化GPU机器翻译
TVM优化GPU机器翻译背景神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力。最近,阿里巴巴集团正在为全球电子商务部署NMT服务。将Transformer用作NMT系统的关键技术,相对于基于经典RNN / LSTM的模型具有同等(甚至更高)的精度,对于高效的离线训练更为友好。尽管Transformer在离线训练阶段很友好,打破了跨时间步长的依赖性,但在线推理效率不高。在生产环境中,已经发现,初始版本的Transformer的推理速度约为1.5倍至2倍,比LS原创 2021-05-09 06:41:35 · 464 阅读 · 1 评论 -
TVM 优化 ARM GPU 上的移动深度学习
TVM 优化 ARM GPU 上的移动深度学习随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长。与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源效率。但是,大多数现有的深度学习框架并不很好地支持移动 GPU。难点在于移动 GPU 架构和桌面 GPU 架构之间的区别。这意味着在移动 GPU 上进行优化需要特别努力。非平凡的额外工作最终导致移动 GPU 在大多数深度学习框架中支持不力。TVM 通过引入统一的 IR 堆栈,解决为不同硬件部署的困难,从而轻松原创 2021-05-08 14:23:48 · 918 阅读 · 0 评论