【tvm官网教程】AutoSchedule:无模板的自动调度

最新推荐文章于 2025-11-18 09:49:57 发布

原创

最新推荐文章于 2025-11-18 09:49:57 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了无模板自动调度器在GPU卷积层和x86 CPU上的应用。自动调度器无需手动设计搜索空间，用户只需编写计算声明。在GPU上，调度器无需模板但需指定调度参数；而在CPU上，网络被切分成子图，每个子图单独优化。通过任务调度器分配时间资源并预测端到端执行时间，以提高性能。建议使用NHWC布局以获得最佳性能。

【tvm官网教程】AutoSchedule:无模板的自动调度

目的
1. 自动调度GPU的卷积层
2. 为x86 CPU自动调度NN

目的

autotvm是基于模板的调优，效果依赖于手动设计的搜索空间。
auto-scheduler不再基于模板，用户只需要编写计算声明，而无需任何调度命令或模板。auto-scheduler可以自动生成一个较大的搜索空间，并在该空间中找到良好的调度。

1. 自动调度GPU的卷积层

不需要定义搜索空间，但是还是要指定一些调度参数，知道在搜索过程中如何进行测量。

定义计算：

@auto_scheduler.register_workload
def conv2d_layer(N, H, W, CO, CI, KH, KW, stride, padding):
    #### 计算声明
    return [data, kernel, bias, out]

创建搜索任务：

target = tvm.target.Target("cuda")
N, H, W, CO, CI, KH, KW, strides, padding = 1, 7, 7, 512, 512, 3, 3, (1, 1), (1, 1)
task = auto_scheduler

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

B10030607

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TVM自动调度器

吴建明wujianming_110117

03-12

844

TVM自动调度器随着模型大小，算子多样性和硬件异构性的不断增长，优化深度神经网络的执行速度非常困难。从计算的角度来看，深度神经网络只是张量计算的一层又一层。这些张量计算（例如matmul和conv2d）可以通过数学表达式轻松描述。在现代硬件上为其提供高性能的实现可能会非常具有挑战性。必须应用各种低级优化，利用特殊的硬件内在函数来实现高性能。建立线性代数和神经网络加速库（如CuBLAS，CuDNN，oneMKL和oneDNN）需要大量的工程工作。如果可以编写数学表达式，将其神奇地转化为有效的代码实现，那么

ANSOR：一种Auto-Scheduler方法

Dong_HFUT的博客

01-14

6957

Ansor（TVM auto shedule）学习调研

参与评论您还未登录，请先登录后发表或查看评论

TVM Auto-Scheduler 自动优化算子实战指南

gitblog_00247的博客

11-18

492

在深度学习模型部署和优化过程中，算子性能优化是一个关键环节。传统的手动优化方式需要开发者具备深厚的硬件架构知识和丰富的优化经验。TVM 的 Auto-Scheduler 功能为开发者提供了一种全新的自动化优化方案，能够在不编写复杂模板的情况下，自动寻找最优的计算调度策略。 ## Auto-Scheduler 核心概念 Auto-Scheduler 是 TVM 提供的一种自动优化框架，它通过以下

NVIDIA GPU的神经网络自动调度

吴建明wujianming_110117

12-14

1127

NVIDIA GPU的神经网络自动调度针对特定设备和工作负载的自动调整对于获得最佳性能至关重要。这是一个关于如何使用自动调度器为NVIDIA GPU调整整个神经网络的资料。为了自动调整一个神经网络，将网络划分成小的子图并独立地进行调整。每个子图被视为一个搜索任务。任务调度器对时间进行切片，并动态地为这些任务分配时间资源。任务调度器预测每个任务对端到端执行时间的影响，并对最能缩短执行时间的任务进行优先级排序。对于每个子图，使用tvm/python/topi中的compute声明来获得张量表达式形式的计算

TVM中的auto-scheduling机制(Ansor)学习笔记

世事难料，保持低调

11-21

9415

背景 TVM沿用了Halide中算法的计算与调度分离的思想。用户使用Tensor Expression（TE）这种DSL定义计算，然后编译器优化相应的schedule，最后生成目标平台的代码。因此，要根据给定的计算自动产生高性能的算子实现，其核心就是找到好的schedule。然而这个schedule不仅和计算相关，还与硬件平台相关。这个搜索空间很大，本质上是个np-complete的组合优化问题。因此，TVM引入了auto-tuning机制，它使得编译出的算子实现性能上有了很大提升。最早一代的auto-tu

【TVM 学习资料】使用 Auto-scheduling 优化算子

HyperAI超神经

02-20

871

本教程将展示 TVM 的 Auto Scheduling 功能，如何在不编写自定义模板的情况下，找到最佳 schedule。

【tvm官网教程】AutoTVM:基于模板的自动调优

B10030607的博客

04-22

2553

【tvm官网教程】AutoTVM:基于模板的自动调优目的1. autotvm模块1.1 API get_config()1.2 class ConfigSpace1.2.1 define_split()1.2.2 class SplitEntity1.2.3 define_knob()1.3 task1.3.1 create1.4 measure1.4.1 measure_option1.5 tuner1.6 apply_history_best2. class Schedule1. 调优专用于GPU的高

TVM：端到端自动深度学习编译器（244页PPT）

05-11

TVM的架构设计允许它对深度学习计算图进行优化，包括算子融合、内存访问优化、算子调度等。TVM支持自动化的调优过程，这使得不同的硬件平台能够获得接近手工优化的性能。这种自动化的方式大大降低了深度学习模型在...

E40021: Failed to compile Op [/model.25/SWS/att/Pow_3/Square/SquareSumV2,[/model.25/SWS/att/ReduceSum_3,/model.25/SWS/att/ReduceSum_3,/model.25/SWS/att/Pow_3]]. (oppath: [Compile /usr/local/Ascend/ascend-toolkit/7.0.RC1/opp/built-in/op_impl/ai_core/tbe/impl/square_sum_v2.py failed with errormsg/stack: File "/usr/local/Ascend/ascend-toolkit/7.0.RC1/python/site-packages/tbe/tvm/_ffi/_ctypes/packed_func.py", line 239, in __call__ raise get_last_ffi_error() tvm._ffi.base.TVMError: {'errClass': 'EmitInsn Error', 'errCode': '[EB4000]', 'message': 'Traceback (most recent call last): 13: TVMFuncCall 12: 0x0000e7ffc4fd24f3 11: ascend_tvm::LowerSchedule(ascend_tvm::te::Schedule, ascend_tvm::runtime::Array<ascend_tvm::runtime::ObjectRef, void> const&, std::string const&, std::unordered_map<ascend_tvm::te::Tensor, ascend_tvm::tir::Buffer, std::hash<ascend_tvm::te::Tensor>, std::equal_to<ascend_tvm::te::Tensor>, std::allocator<std::pair<ascend_tvm::te::Tensor const, ascend_tvm::tir::Buffer> > > const&, ascend_tvm::PrimExpr, bool) 10: ascend_tvm::LowerWithPassList(ascend_tvm::IRModule, ascend_tvm::runtime::Array<ascend_tvm::transform::Pass, void>) 9: ascend_tvm::transform::Pass::operator()(ascend_tvm::IRModule) const 8: ascend_tvm::transform::Pass::operator()(ascend_tvm::IRModule, ascend_tvm::transform::PassContext const&) const 7: ascend_tvm::transform::SequentialNode::operator()(ascend_tvm::IRModule, ascend_tvm::transform::PassContext const&) const 6: ascend_tvm::transform::Pass::operator()(ascend_tvm::IRModule, ascend_tvm::transform::PassContext const&) const 5: ascend_tvm::tir::transform::PrimFuncPassNode::operator()(ascend_tvm::IRModule, ascend_tvm::transform::PassContext const&) const 4: 0x0000e7ffc758a91f 3: ascend_tvm::tir::ReuseBuf(ascend_tvm::tir::Stmt) File "reuse_buf.cc", line 126

07-15

这个错误通常发生在TVM编译过程中生成指令（emit instruction）的阶段，表明编译器无法为给定的算子生成有效的硬件指令。 ### 错误分析 1. **算子特性**：SquareSumV2算子的功能是计算输入张量在指定轴上的平方和。...

TVM加速GPU矩阵乘法：GEMM优化实现与完整源码解析

最新发布

11-25

核心优化技术包括计算图自动调度、内存访问模式重构和并行计算单元优化三个维度。在计算图调度层面，我们设计了基于AutoTVM的自动调优算法。该算法通过构建多维参数搜索空间，对线程块配置、共享内存使用策略和...

TVM：使用 Auto-scheduling 来优化算子

weixin_44966641的博客

11-17

1183

TVM：使用 Auto-scheduling 来优化算子在本教程中，我们将展示 TVM 的 Auto-scheduling 功能如何在无需编写自定义模板的情况下找到最佳 schedule。与基于模板的 AutoTVM 依赖手动模板定义搜索空间不同，auto-scheduler 不需要任何模板。用户只需编写计算声明，无需任何调度命令或模板。 auto-scheduler 可以自动生成一个大的搜索空间，并在该空间中找到一个好的 schedule。我们在本教程中同样使用矩阵乘法作为示例。 import o

AutoSchedule和AutoTVM

free1993的博客

07-19

1420

简介 AutoTVM 用户自己手写一个模版，在模版里面自己定义一下tune的参数，例如tile size等。给定一个模版，在这个模版里面去搜索参数，使得可以达到一组最好的参数使得张量计算的结果最好。但是，它是一种基于模板的方法，因此仍然需要领域专家为每个平台上的每个算子实现一个性能比较好的模板。今天，TVM 代码库中有超过 15,000 行这些模板的代码。除了非常难以开发之外，这些模板通常效率低下且搜索空间有限，无法实现最佳性能。 Auto Schedule : Template-free Auto Sch

神经网络编译器的Tensor优化：auto tune和auto schedule

free1993的博客

04-28

2121

一般情况下，深度神经网络的计算本质上是一对tensor的计算，例如常见的conv2d的计算本质上是一个7层的for循环，那么底层的硬件，例如内存大小，SM的数量，threads和blocks等都会对最终的for循环造成影响。现存的深度学习框架（例如Tensorflow，PyTorch ，MXNet）会将DNN中的计算映射到其底层提供的向量计算内核库（例如cuDNN，MKL-DNN）来实现高性能。但是，这些内核库存在以下几个问题：现存的加速库cuDnn,MKL-DNN针对Tensor的优化是需要耗费大

Python中定时任务框架APScheduler入门教程

潘高的小站

05-28

1428

使用调度模板和 AutoTVM 以及 AutoSchedule优化 Operator

pkapkaever的博客

11-08

544

首先要知道为啥要用这个调优，上一篇说到，咱们tile选择的bn = 32，但是硬件后端多种多样，不一定说32就能得到最好的结果，所以AutoTVM和AutoSchedule可以帮我们在搜索空间中一个个尝试，找到最好的结果（但是哦，大家想一想，搜索空间有局限对不对？）使用AutoTVM进行调优 import logging import sys import numpy as np import tvm from tvm import te from tvm.autotvm.task import Tas

APScheduler(python 定时任务框架)最简单使用教程

ic_zswdbk的博客

08-05

476

线程数不等于请求数

图解TVM中的调度原语(Schedule Primitives)

生活需要深度

02-03

1065

上面简要介绍了TVM中基本的调度原语（Schedule Primitives），我们可以通过组合这些基本元素，达到一个满意的优化结果。

TVM调度原语完全指南：从入门到微架构级优化

qq_38961840的博客

02-01

1675

在TVM的世界里，每一个调度原语都是时空的雕塑工具。微观直觉：理解每个原语在硬件底层的映射宏观视野：把握多个原语之间的相互作用艺术感知：在约束条件下找到优雅的优化路径最优性能∫硬件空间∏原语fxdx\text{最优性能} = \int_{\text{硬件空间}} \prod_{\text{原语}} f(x) \, dx最优性能∫硬件空间原语∏fxdx愿每一位读者都能在TVM的调度世界中，找到属于自己的优化之美。

AutoGPT任务调度：APScheduler深度应用

gitblog_00579的博客

09-01

814

在AI自动化领域，定时任务的可靠执行是核心需求。AutoGPT作为领先的AI代理平台，通过集成APScheduler（Advanced Python Scheduler）提供了企业级的任务调度能力。本文将深入解析AutoGPT如何利用APScheduler实现高可靠、高并发的定时任务管理。 ## APScheduler在AutoGPT中的架构设计 ### 核心组件架构 ```mermaid ...