
CUDA Kernel优化
文章平均质量分 96
CUDA Kernel优化
木子CS
LLM Infer, AI Infra, CUDA
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Decoding Attention-LLM推理优化
目前在大部分推理Decoding场景下,性能都优于Flash Attention和Flash Attention v2,此外Decoding Attention还支持GQA(Group Query Attention)/ MQA(Multi Query Attention)和ALiBi(Attention with Linear Biases)推理场景。代码开源在flash_attention_inference。原创 2023-11-01 19:20:48 · 189 阅读 · 0 评论 -
Nvidia CUDA Core-CUDA HGEMV优化
在深度学习模型特别是LLM(Large Language Model)的推理优化中,HGEMV(Half-precision General Matrix Vector Multiplication)半精度矩阵向量乘法的优化日趋重要。然而Cublas没有提供直接计算HGEMV的API,只能使用cublasGemmEx等相关API来间接调用Tensor Core计算HGEMV。原创 2023-10-10 10:20:56 · 884 阅读 · 0 评论 -
Nvidia Tensor Core-CUDA HGEMM优化进阶
GEMM(General Matrix Multiplication)矩阵乘法是深度学习中最常用且最耗时的算法之一,特别是在CNN、RNN、Transformer等领域中。在这些领域中,大量的矩阵乘法操作需要被快速计算和处理。因此,高效的矩阵乘法实现对于深度学习任务的性能和准确性至关重要。原创 2023-07-14 18:02:44 · 2273 阅读 · 0 评论