Triton
HyperAI超神经
链接人工智能新场景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Triton 教程】triton_language.make_block_ptr
它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →triton.hyper.ai/返回指向父张量中 1 个块的指针。原创 2025-12-30 16:22:59 · 58 阅读 · 0 评论 -
【Triton 教程】triton_language.store
它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。triton.PointerType, 或 dtype=triton.PointerType 的块。应为 {“”, “evict_first”, “evict_last”} 中的一个。是 1 个 N 维指针张量,则会存储 1 个 N 维张量。定义的块指针,则会存储 1 个张量。是单元素指针,则加载 1 个标量。将数据张量存储到由指针定义的内存位置。triton.int1 的块。原创 2025-12-26 18:43:52 · 233 阅读 · 0 评论 -
【Triton 教程】triton_language.load
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。是 1 个 N 维指针张量,则加载 1 个 N 维张量。或 dtype=triton.PointerType 的块。是单元素指针,则加载 1 个标量。定义的块指针,则加载 1 个张量。应为 {“”, “ca”, “cg”} 中的一个。更多 Triton 中文文档可访问 →。triton.int1 的块。原创 2025-12-17 17:17:52 · 424 阅读 · 0 评论 -
【Triton 教程】triton_language.dot
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。这 2 个块必须都是二维或三维的并且有兼容的内部维度。对于三维的块,tl.dot 执行批量矩阵乘积,其中每个块的第一维度代表批量维度。更多 Triton 中文文档可访问 →。返回 2 个块的矩阵乘积。原创 2025-12-17 17:06:49 · 261 阅读 · 0 评论 -
【Triton 教程】triton_language.view
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。返回具有与输入相同元素但形状不同的张量,元素的顺序可能无法保持。更多 Triton 中文文档可访问 →。的成员函数调用,使用。原创 2025-12-17 16:46:28 · 369 阅读 · 0 评论 -
【Triton 教程】triton_language.trans
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。未被指定,该函数默认为 (1,0) 置换,有效地转置了 1 个二维张量。和这个函数是等价的,但它不包含当没有指定置换时的特殊处理情况。更多 Triton 中文文档可访问 →。的成员函数调用,使用。原创 2025-11-12 16:55:27 · 192 阅读 · 0 评论 -
【Triton 教程】triton_language.split
它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。如果希望拆分成多个部分,可以多次调用这个函数(可能还需要调用 reshape 函数)。这反映了 Triton 中的约束,即张量必须具有 2 的幂次方大小。例如,给定 1 个形状为 (4,8,2) 的张量,生成 2 个形状为 (4,8) 的张量。给定 1 个形状为 (2) 的张量,返回 2 个标量。将张量沿着其最后 1 个维度分成 2 部分,该维度的大小必须为 2。原创 2025-10-31 19:30:26 · 178 阅读 · 0 评论 -
【Triton 教程】triton_language.reshape
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。返回一个具有与输入相同元素数量,但具有所提供形状的张量。更多 Triton 中文文档可访问 →。的成员函数调用,例如。原创 2025-10-14 16:35:35 · 413 阅读 · 0 评论 -
【Triton 教程】triton_language.ravel
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。的成员函数调用,例如。原创 2025-09-25 20:25:06 · 207 阅读 · 0 评论 -
【Triton 教程】triton_language.permute
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。为空的时候,它会尝试进行 (1,0) 的置换。更多 Triton 中文文档可访问 →。和这个函数等价,除了当。的成员函数调用,例如。原创 2025-09-21 20:05:59 · 273 阅读 · 0 评论 -
【Triton 教程】triton_language.join
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-08-26 10:38:19 · 248 阅读 · 0 评论 -
【Triton 教程】triton_language.interleave
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-08-21 10:23:44 · 420 阅读 · 0 评论 -
【Triton 教程】triton_language.expand_dims
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-08-12 10:16:16 · 224 阅读 · 0 评论 -
【Triton 教程】triton_language.broadcast_to
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →<https://triton.hyper.ai/>原创 2025-08-07 10:14:59 · 4690 阅读 · 0 评论 -
【Triton 教程】triton_language.broadcast
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-07-29 10:36:52 · 2631 阅读 · 0 评论 -
【Triton 教程】triton_language.cast
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-07-22 10:23:29 · 220 阅读 · 0 评论 -
【Triton 教程】triton_language.zeros_like
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。返回 1 个形状和类型与给定张量相同的全零张量。更多 Triton 中文文档可访问 →。原创 2025-07-17 19:16:40 · 223 阅读 · 0 评论 -
【Triton 教程】triton_language.zeros_like
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。原创 2025-07-08 10:41:30 · 225 阅读 · 0 评论 -
【Triton 教程】triton_language.zeros
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。原创 2025-07-01 10:45:17 · 165 阅读 · 0 评论 -
【Triton 教程】triton_language.full
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。原创 2025-06-24 10:59:57 · 201 阅读 · 0 评论 -
【Triton 教程】triton_language.cat
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。原创 2025-06-17 11:47:13 · 246 阅读 · 0 评论 -
【Triton 教程】triton_language.arange
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。原创 2025-06-10 17:06:16 · 261 阅读 · 0 评论 -
【Triton 教程】triton_language.num_programs
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-06-05 08:34:43 · 199 阅读 · 0 评论 -
【Triton 教程】triton_language.program_id
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-05-27 13:49:36 · 287 阅读 · 0 评论 -
【Triton 教程】triton_language.tensor
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/原创 2025-05-20 11:03:03 · 742 阅读 · 0 评论 -
【Triton 教程】triton.Config
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。– 在为 GPU 编译时内核使用的线程数。例如,如果 num_warps=8,则每个内核实例将自动并行化,使用 8 * 32 = 256 个线程协作执行。– 编译器在软件流水线循环时应使用的阶段数。对于 SM80+ GPU 上的矩阵乘法工作负载非常有用。- 单个线程可以使用的最大寄存器数。– 在调用内核之前将被调用的函数。原创 2025-05-13 11:12:38 · 366 阅读 · 0 评论 -
【Triton 教程】triton.heuristics
values (dict[str, Callable[[list[Any]], Any]]**) - 包含元参数名称和计算元参数值的函数的字典。每个这样的函数都接受一个位置参数列表作为输入。Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。用于指定如何计算某些元参数值的装饰器。这在自动调优成本过高或不适用的情况下非常有用。更多 Triton 中文文档可访问 →。原创 2025-05-09 13:23:42 · 320 阅读 · 0 评论 -
【Triton 教程】triton_language.zeros
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。,返回 1 个填充了标量值 0 的张量。更多 Triton 中文文档可访问 →。原创 2025-04-27 17:02:52 · 282 阅读 · 0 评论 -
【Triton 教程】triton_language.full
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。返回一个张量,该张量填充了指定。原创 2025-04-18 17:32:40 · 300 阅读 · 0 评论 -
【Triton 教程】triton_language.cat
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/连接给定的块。参数**:**原创 2025-04-11 15:10:11 · 306 阅读 · 0 评论 -
【Triton 教程】triton_language.arange
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。原创 2025-04-02 18:07:32 · 223 阅读 · 0 评论 -
【Triton 教程】triton_language.num_programs
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。启动的程序实例的数量。原创 2025-03-26 17:48:13 · 415 阅读 · 0 评论 -
【Triton 教程】triton_language.tensor
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。返回当前程序实例的 ID。原创 2025-03-19 16:29:18 · 248 阅读 · 0 评论 -
【Triton 教程】triton_language.tensor
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。这里大多数命名的成员函数都是 triton.language 中自由函数的重复。例如,triton.language.sqrt(x) 等同于 x.sqrt()。triton.language 中的大多数函数对 tensors 进行操作并返回。tensor 还定义了大部分的魔法/双下划线方法,因此可以像写 x+y、x << 2 等等。原创 2025-03-12 16:40:30 · 837 阅读 · 0 评论 -
【Triton 教程】triton.Config
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。表示自动调优可能尝试的内核配置的对象。原创 2025-03-05 16:30:33 · 409 阅读 · 0 评论 -
【Triton 教程】triton.heuristics
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。- 包含元参数名称和计算元参数值的函数的字典。每个这样的函数都接受一个位置参数列表作为输入。用于指定如何计算某些元参数值的装饰器。这在自动调优成本过高或不适用的情况下非常有用。更多 Triton 中文文档可访问 →。原创 2025-02-26 14:45:27 · 276 阅读 · 0 评论 -
【Triton 教程】triton.autotune
该参数会覆盖 ‘reset_to_zero’ 和 ‘restore_value’ 的默认 ‘pre_hook’。如果环境变量 TRITON_PRINT_AUTOTUNING 设置为 “1”,Triton 会在每次自动调优内核后向标准输出 (stdout) 打印一条消息,包括自动调优所花费的时间和最佳配置。该参数会覆盖 ‘restore_value’ 的默认 post_hook。‘early_config_prune’(可选):用于提前修剪配置的函数(例如,num_stages)。原创 2025-02-06 04:00:19 · 900 阅读 · 0 评论 -
【Triton 教程】triton.jit
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。使用 Triton 编译器的 JIT 编译函数的装饰器。更多 Triton 中文文档可访问 →。原创 2025-01-22 13:23:14 · 519 阅读 · 0 评论 -
【Triton 教程】持久矩阵乘法 (Persistent Matmul)
包含多种矩阵乘法方法,例如基础的朴素方法 (naive)、持久化方法 (persistent) 以及基于张量内存加速器(TMA,Tensor Memory Accelerator)的方法。这些内核同时支持半精度浮点数(FP16)和 8 位浮点数(FP8)数据类型,但 FP8 的实现仅在计算能力大于等于 9.0 的 CUDA 设备上可用。Triton 与 cuBLAS 的具体实现将会在多种各异的配置情形下开展基准测试工作,并通过质子分析器 (proton profiler) 进行评估。原创 2025-01-15 11:04:21 · 1223 阅读 · 0 评论 -
【Triton 教程】分组 GEMM
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。分组 GEMM 内核通过启动固定数量的 CTA 来计算一组 gemms。调度是静态的,并且在设备上完成。更多 Triton 中文文档可访问 →。原创 2025-01-08 10:53:36 · 629 阅读 · 0 评论
分享