
llm
文章平均质量分 93
rebekk
这个作者很懒,什么都没留下…
展开
-
DeepSeek中的MLA技术
On2)On)WQWVWKWDKVCtKVWUKWUV。原创 2025-02-27 21:24:49 · 983 阅读 · 0 评论 -
flash-attention代码逻辑
本篇写的很乱,主要是自己当时读代码时的一些随手记录,对自己帮助可能更大。如果觉得写得很乱不要喷我,我应该没时间整理成干净的博客了原创 2024-10-09 19:16:52 · 1413 阅读 · 0 评论 -
FlashAttention原理:从原始Attention到FlashAttention
以前的attention加速方法旨在减少attention的计算和内存需要,如sparse-attention、low-rank approximation等,但由于它们主要关注FLOP reduction,且倾向于忽略内存访问的开销,所以都没有达到wall-clock speedup。FlashAttention比普通attention的HBM(GPU high bandwidth memory)访问量更少,并适用于一系列SRAM大小。原创 2024-09-26 14:44:52 · 3379 阅读 · 0 评论