cuda
文章平均质量分 85
KIDGINBROOK
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hopper Gemm优化
本章介绍下Hopper下TensorCore的使用,以及如何利用TensorCore实现和优化Gemm,主要参考这个博客和对应的代码实现。代码实现了C = A x B,均为bf16,A是K Major,shape为MxK,B为K Major,shape为NxK,C为M Major,shape为NxM。原创 2025-12-17 22:31:48 · 821 阅读 · 0 评论 -
flash attention 2论文学习
flash attention作者Tri Dao发布了flash attention 2,性能为flash attention的2倍。原创 2023-07-25 22:16:57 · 1759 阅读 · 0 评论 -
flash attention论文及源码学习
flash attention考虑到IO的影响,重新设计了attention算法流程,降低对HBM的占用和访问,在高速缓存上使用block粒度的softmax tiling的计算方法加速attention的计算。原创 2023-07-01 11:30:05 · 8102 阅读 · 22 评论
分享