
Triton
文章平均质量分 67
HyperAI超神经
链接人工智能新场景
展开
-
【Triton 教程】triton_language.arange
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。原创 2025-04-02 18:07:32 · 118 阅读 · 0 评论 -
【Triton 教程】triton_language.num_programs
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。启动的程序实例的数量。原创 2025-03-26 17:48:13 · 317 阅读 · 0 评论 -
【Triton 教程】triton_language.tensor
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。返回当前程序实例的 ID。原创 2025-03-19 16:29:18 · 172 阅读 · 0 评论 -
【Triton 教程】triton_language.tensor
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。这里大多数命名的成员函数都是 triton.language 中自由函数的重复。例如,triton.language.sqrt(x) 等同于 x.sqrt()。triton.language 中的大多数函数对 tensors 进行操作并返回。tensor 还定义了大部分的魔法/双下划线方法,因此可以像写 x+y、x << 2 等等。原创 2025-03-12 16:40:30 · 621 阅读 · 0 评论 -
【Triton 教程】triton.Config
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →。表示自动调优可能尝试的内核配置的对象。原创 2025-03-05 16:30:33 · 201 阅读 · 0 评论 -
【Triton 教程】triton.heuristics
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。- 包含元参数名称和计算元参数值的函数的字典。每个这样的函数都接受一个位置参数列表作为输入。用于指定如何计算某些元参数值的装饰器。这在自动调优成本过高或不适用的情况下非常有用。更多 Triton 中文文档可访问 →。原创 2025-02-26 14:45:27 · 153 阅读 · 0 评论 -
【Triton 教程】triton.autotune
该参数会覆盖 ‘reset_to_zero’ 和 ‘restore_value’ 的默认 ‘pre_hook’。如果环境变量 TRITON_PRINT_AUTOTUNING 设置为 “1”,Triton 会在每次自动调优内核后向标准输出 (stdout) 打印一条消息,包括自动调优所花费的时间和最佳配置。该参数会覆盖 ‘restore_value’ 的默认 post_hook。‘early_config_prune’(可选):用于提前修剪配置的函数(例如,num_stages)。原创 2025-02-06 04:00:19 · 390 阅读 · 0 评论 -
【Triton 教程】triton.jit
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。使用 Triton 编译器的 JIT 编译函数的装饰器。更多 Triton 中文文档可访问 →。原创 2025-01-22 13:23:14 · 266 阅读 · 0 评论 -
【Triton 教程】持久矩阵乘法 (Persistent Matmul)
包含多种矩阵乘法方法,例如基础的朴素方法 (naive)、持久化方法 (persistent) 以及基于张量内存加速器(TMA,Tensor Memory Accelerator)的方法。这些内核同时支持半精度浮点数(FP16)和 8 位浮点数(FP8)数据类型,但 FP8 的实现仅在计算能力大于等于 9.0 的 CUDA 设备上可用。Triton 与 cuBLAS 的具体实现将会在多种各异的配置情形下开展基准测试工作,并通过质子分析器 (proton profiler) 进行评估。原创 2025-01-15 11:04:21 · 896 阅读 · 0 评论 -
【Triton 教程】分组 GEMM
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。分组 GEMM 内核通过启动固定数量的 CTA 来计算一组 gemms。调度是静态的,并且在设备上完成。更多 Triton 中文文档可访问 →。原创 2025-01-08 10:53:36 · 411 阅读 · 0 评论 -
【Triton 教程】Libdevice (tl_extra.libdevice) 函数
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →Triton 可以调用外部库中的自定义函数。在这个例子中,我们将使用 libdevice 库在张量上应用 asin 函数。在 libdevice.py 中,我们试图将相同计算但不同数据类型的函数聚合在一起。原创 2024-11-28 10:48:34 · 929 阅读 · 0 评论 -
【Triton 教程】融合注意力 (Fused Attention)
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →https://triton.hyper.ai/这是根据 Tri Dao 的 Flash Attention v2 算法的 Triton 实现。致谢:OpenAI 核心团队特别鸣谢:Flash Attention 原始论文(https://arxiv.org/abs/2205.1413原创 2024-11-21 16:41:59 · 688 阅读 · 0 评论 -
【Triton 教程】层标准化
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →在本教程中,你将编写一个比 PyTorch 实现运行更快的高性能层标准化 (layer normalization) 内核。原创 2024-11-14 17:51:47 · 1310 阅读 · 0 评论 -
【Triton 教程】低内存 Dropout
Dropout 是在中引入的一种技术,用于改善低数据条件下深度神经网络的性能,通常用于正则化。它接受一个向量作为输入,并生成相同 shape 的输出向量。输出中的每个标量都有概率 p 被设为零,否则直接从输入复制。这使得网络在仅有输入的 1−p 标量时也能表现良好。在评估阶段,为了充分利用网络的能力,将 p 设为 0。但是简单地将 p 设为 0 会增加输出的范数,可能会人为地降低输出的 softmax temperature。原创 2024-11-07 16:29:09 · 985 阅读 · 0 评论 -
【Triton 教程】矩阵乘法
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。更多 Triton 中文文档可访问 →在本教程中,您将编写一个非常简短的高性能 FP16 矩阵乘法内核,其性能可以与 cuBLAS 或 rocBLAS 相媲美。原创 2024-10-31 12:36:32 · 429 阅读 · 0 评论 -
【Triton 教程】融合 Softmax (Fused Softmax)
Triton 学习原创 2024-10-24 19:36:17 · 679 阅读 · 0 评论 -
【Triton 教程】向量相加
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。原创 2024-10-17 16:49:39 · 1348 阅读 · 0 评论