
TVM
文章平均质量分 83
图波列夫
这个作者很懒,什么都没留下…
展开
-
使用TVM优化深度学习GPU算子:深度卷积实例
以下内容翻译自:Optimize Deep Learning GPU Operators with TVM: A Depthwise Convolution Example高效的深度学习算子是深度学习系统的核心。通常这些算子很难优化,并且需要高性能计算专家的努力。TVM,端到端张量IR/DSL堆栈,使得这项任务更容易。这个博客教你如何在TVM的帮助下编写高性能GPU运算核心。我们使用深度卷...翻译 2018-03-01 20:01:00 · 11525 阅读 · 6 评论 -
通过 DLPack 构建跨框架深度学习编译器
以下内容翻译自:Building a Cross-Framework Deep Learning Compiler via DLPack诸如 Tensorflow、PyTorch 和 Apache MxNet 等深度学习框架为深度学习的快速原型设计和模型部署提供了强大的工具箱。不幸的是,它们的易用性通常以碎片化为代价:这仅限于单独使用每个框架。垂直整合使得开发流程适用于常见用例,但打破...翻译 2018-08-15 19:04:19 · 3521 阅读 · 0 评论 -
使用 TVM RPC 在手机上远程分析和测试深度学习交叉编译程序
以下内容翻译自:Remote Profile and Test Deep Learning Cross Compilation on Mobile Phones with TVM RPCTVM 堆栈是端到端的编译堆栈,可将深度学习工作负载部署到所有硬件后端。由于 NNVM 编译器支持 TVM 堆栈,我们现在可以直接编译来自深度学习框架的描述并生成裸机代码。TVM 一个令人印象深刻的特性是它能...翻译 2018-10-19 09:59:35 · 3648 阅读 · 1 评论 -
深度学习所有硬件平台的自动内核优化
以下内容翻译自:Automatic Kernel Optimization for Deep Learning on All Hardware Platforms对于 AI 开发人员来说,在各种硬件平台上优化深度神经网络的性能仍然是一个难题。在系统支持方面,我们面临着一个多对多的问题:将多个前端(例如 Tensorflow、ONNX、MXNet)的训练模型部署到多个硬件平台(例如 CPU、G...翻译 2018-10-16 19:14:10 · 1663 阅读 · 0 评论 -
自动生成低精度深度学习运算符
以下内容翻译自:Automating Generation of Low Precision Deep Learning Operators随着深度学习模型变得越来越大,越来越复杂,将它们部署在低功耗手机和物联网设备上变得具有挑战性,因为它们的计算和能源预算有限。深度学习的最新趋势是使用极端量化的模型,对输入和若干位的权重进行操作,XNOR-Net,DoReFa-Net 和 HWGQ-Net...翻译 2019-03-01 20:30:35 · 1291 阅读 · 0 评论